導航:首頁 > 數據處理 > 如何解決重復數據冪等

如何解決重復數據冪等

發布時間：2022-11-19 14:24:39

1. 理解冪等性

一次和多次請求某一個資源對於資源本身應該具有同樣的結果（網路超時等問題除外）。

也就是說，其任意多次執行對資源本身所產生的影響均與一次執行的影響相同。換種說法，就是用戶對於同一操作發起的一次請求或者多次請求的結果是一致的，不會因為多次點擊而產生了副作用。

舉個最簡單的例子，那就是支付，用戶購買商品使用支付，此時多次觸發支付，只會支付一次，而不會多扣錢。

1. 冪等需要關注的幾個重點:

（1）冪等不僅僅只是一次（或多次）請求對資源沒有副作用。
（2）冪等還包括第一次請求的時候對資源產生了副作用，但是以後的多次請求都不會再對資源產生副作用。
（3）冪等關注的是以後的多次請求是否對資源產生的副作用，而不關注結果。
（4）網路超時等問題，不是冪等的討論范圍。

冪等性是系統服務對外一種承諾（而不是實現），承諾只要調用介面成功，外部多次調用對系統的影響是一致的。聲明為冪等的服務會認為外部調用失敗是常態，並且失敗之後必然會有重試。

2. 冪等與防重的區別：

（1）重復提交是在 第一次請求已經成功的情況下 ，人為的進行多次操作，導致不滿足冪等要求的服務多次改變狀態。
（2）冪等更多使用的情況是 第一次請求不知道結果（比如超時）或者失敗的異常情況下 ，發起多次請求，目的是多次確認第一次請求成功，卻不會因多次請求而出現多次的狀態變化。（ 重點重點重點！！！ ）

業務開發中，經常會遇到重復提交的情況，無論是由於網路問題無法收到請求結果而重新發起請求，或是前端的操作抖動而造成重復提交情況。

在交易系統，支付系統這種重復提交造成的問題有尤其明顯，比如：

（1）用戶在APP上連續點擊了多次提交訂單，後台應該只產生一個訂單

（2）向支付寶發起支付請求，由於網路問題或系統BUG重發，支付寶應該只扣一次錢。很顯然，聲明冪等的服務認為，外部調用者會存在多次調用的情況，為了防止外部多次調用對系統數據狀態的發生多次改變，將服務設計成冪等。

以SQL為例，有下面三種場景，只有第三種場景需要開發人員使用其他策略保證冪等性：

冪等可以使得客戶端邏輯處理變得簡單，但是卻以服務邏輯變得復雜為代價。 滿足冪等服務的需要在邏輯中至少包含兩點：

（1）首先去查詢上一次的執行狀態，如果沒有則認為是第一次請求。
（2）在服務改變狀態的業務邏輯前，保證防重復提交的邏輯。

冪等是為了簡化客戶端邏輯處理，卻增加了服務提供者的邏輯和成本，是否有必要，需要根據具體場景具體分析，因此除了業務上的特殊要求外，盡量不提供冪等的介面。

（1）增加了額外控制冪等的業務邏輯，復雜化了業務功能；
（2）把並行執行的功能改為串列執行，降低了執行效率。

冪等需要通過唯一的業務單號來保證。也就是說相同的業務單號，認為是同一筆業務。使用這個唯一的業務單號來確保，後面多次的相同的業務單號的處理邏輯和執行效果是一致的。

下面以支付為例， 在不考慮並發的情況下，實現冪等很簡單：

① 先查詢一下訂單是否已經支付過；
② 如果已經支付過，則返回支付成功；如果沒有支付，進行支付流程，修改訂單狀態為『已支付』。

上述的保證冪等方案是分成兩步的，第②步依賴第①步的查詢結果，無法保證原子性的。在高並發下就會出現下面的情況：第二次請求在第一次請求第②步訂單狀態還沒有修改為『已支付狀態』的情況下到來。

既然得出了這個結論，餘下的問題也就變得簡單： 把查詢和變更狀態操作加鎖，將並行操作改為串列操作。

（1）樂觀鎖

如果只是更新已有的數據，沒有必要對業務進行加鎖，設計表結構時使用樂觀鎖，一般通過version來做樂觀鎖，這樣既能保證執行效率，又能保證冪等。

例如： UPDATE tab1 SET col1=1,version=version+1 WHERE version=#version# 不過，樂觀鎖存在失效的情況，就是常說的ABA問題，不過如果version版本一直是自增的就不會出現ABA的情況。

（2）悲觀鎖

select * from xx for update;

悲觀鎖和樂觀鎖的區別:

使用訂單號orderNo做為去重表的唯一索引，每次請求都根據訂單號向去重表中插入一條數據。

第一次請求查詢訂單支付狀態，當然訂單沒有支付，進行支付操作，無論成功與否，執行完後更新訂單狀態為成功或失敗，刪除去重表中的數據。

後續的訂單因為表中唯一索引而插入失敗，則返回操作失敗，直到第一次的請求完成（成功或失敗）。可以看出防重表作用是加鎖的功能。

訂單發起支付請求，支付系統會去Redis緩存中查詢是否存在該訂單號的Key，如果不存在，則向Redis增加Key為訂單號。

查詢訂單支付已經支付，如果沒有則進行支付，支付完成後刪除該訂單號的Key。通過Redis做到了分布式鎖，只有這次訂單訂單支付請求完成，下次請求才能進來。

相比去重表，將放並發做到了緩存中，較為高效。思路相同，同一時間只能完成一次支付請求。

這種方式分成兩個階段：申請token階段和支付階段。

第一階段，在進入到提交訂單頁面之前，需要訂單系統根據用戶信息向支付系統發起一次申請token的請求，支付系統將token保存到Redis緩存中，為第二階段支付使用。

第二階段，訂單系統拿著申請到的token發起支付請求，支付系統會檢查Redis中是否存在該token，如果存在，表示第一次發起支付請求，刪除緩存中token後開始支付邏輯處理；如果緩存中不存在，表示非法請求。

實際上這里的token是一個信物，支付系統根據token確認是否是非法請求。不足是需要系統間交互兩次，流程較上述方法復雜。

把訂單的支付請求都快速地接下來，一個快速接單的緩沖管道。後續使用非同步任務處理管道中的數據，過濾掉重復的待支付訂單。優點是同步轉非同步，高吞吐。不足是不能及時地返回支付結果，需要後續監聽支付結果的非同步返回。

2. Excel 2007中對重復數據如何處理

1、數據輸入時避免重復
在輸入學籍號、身份證號碼等數據時，我們可以通過如下方法解決：
(1)首先選中要輸入數據的固定區域，如A2:A10單元格區域，然後打開「開始」標簽頁，在「條件格式」下拉菜單中選擇「突出顯示單元格規則」→「重復值」(如圖一)。
(2)時就會打開「重復值」對話框，在這里你可以根據需要自行定義重復值單元格內數據的顏色，如設置成醒目的紅色(如圖二)，確認後即可生效。
這樣，當你不慎輸入了重復的數據，當前單元格就會立即變成紅色，給你提示。
2、輕松刪除重復數據
如果大量的數據已經輸入完畢，這時我們需要將相同的數據找出來並將其刪除,方法是：選中需要刪除重復項的單元格區域，然後切換到「數據」標簽頁，直接單擊工具欄中的「刪除重復項」，此時會打開「刪除重復項」對話框(如圖三)，確認後就會將指定區域中的所有重復內容一次性清除。

3. 分布式系統中實現冪等性的幾種方式

在微服務架構下，我們在完成一個訂單流程時經常遇到下面的場景：

為了解決以上問題，就需要保證介面的冪等性 ，介面的冪等性實際上就是介面可重復調用，在調用方多次調用的情況下，介面最終得到的結果是一致的。 有些介面可以天然的實現冪等性 ，比如查詢介面，對於查詢來說，你查詢一次和兩次，對於系統來說，沒有任何影響，查出的結果也是一樣。

除了查詢功能具有天然的冪等性之外，增加、更新、刪除都要保證冪等性。 那麼如何來保證冪等性呢？

多版本並發控制，該策略主要使用update with condition（更新帶條件來防止）來保證多次外部請求調用對系統的影響是一致的。在系統設計的過程中，合理的使用樂觀鎖，通過version或者updateTime（timestamp）等其他條件，來做樂觀鎖的判斷條件，這樣保證更新操作即使在並發的情況下，也不會有太大的問題。例如

在更新的過程中利用version來防止，其他操作對對象的並發更新，導致更新丟失。為了避免失敗，通常需要一定的重試機制。

在插入數據的時候，插入去重表，利用資料庫的唯一索引特性，保證唯一的邏輯。

這種方法適用於在業務中有唯一標的插入場景中，比如在以上的支付場景中，如果一個訂單只會支付一次，所以訂單ID可以作為唯一標識。這時，我們就可以建一張去重表，並且把唯一標識作為唯一索引，在我們實現時，把創建支付單據和寫入去去重表，放在一個事務中，如果重復創建，資料庫會拋出唯一約束異常，操作就會回滾。

select for update，整個執行過程中鎖定該訂單對應的記錄。注意：這種在DB讀大於寫的情況下盡量少用。

並發不高的後台系統，或者一些任務JOB，為了支持冪等，支持重復執行，簡單的處理方法是，先查詢下一些關鍵數據，判斷是否已經執行過，在進行業務處理，就可以了。注意：核心高並發流程不要用這種方法。

在設計單據相關的業務，或者是任務相關的業務，肯定會涉及到狀態機，就是業務單據上面有個狀態，狀態在不同的情況下會發生變更，一般情況下存在有限狀態機，這時候，如果狀態機已經處於下一個狀態，這時候來了一個上一個狀態的變更，理論上是不能夠變更的，這樣的話，保證了有限狀態機的冪等。

這種方法適合在有狀態機流轉的情況下，比如就會訂單的創建和付款，訂單的付款肯定是在之前，這時我們可以通過在設計狀態欄位時，使用int類型，並且通過值類型的大小來做冪等，比如訂單的創建為0，付款成功為100。付款失敗為99

在做狀態機更新時，我們就這可以這樣控制

業務要求：頁面的數據只能被點擊提交一次

發生原因：由於重復點擊或者網路重發，或者nginx重發等情況會導致數據被重復提交

解決辦法：

處理流程：

token特點:要申請，一次有效性，可以限流

如銀聯提供的付款介面：需要接入商戶提交付款請求時附帶：source來源，seq序列號。source+seq在資料庫裡面做唯一索引，防止多次付款，(並發時，只能處理一個請求)

總結： 冪等性應該是合格程序員的一個基因，在設計系統時，是首要考慮的問題，尤其是在像支付寶，銀行，互聯網金融公司等涉及的都是錢的系統，既要高效，數據也要准確，所以不能出現多扣款，多打款等問題，這樣會很難處理，用戶體驗也不好。

如果使用全局唯一ID，就是根據業務的操作和內容生成一個全局ID，在執行操作前先根據這個全局唯一ID是否存在，來判斷這個操作是否已經執行。如果不存在則把全局ID，存儲到存儲系統中，比如資料庫、redis等。如果存在則表示該方法已經執行。

從工程的角度來說，使用全局ID做冪等可以作為一個業務的基礎的微服務存在，在很多的微服務中都會用到這樣的服務，在每個微服務中都完成這樣的功能，會存在工作量重復。另外打造一個高可靠的冪等服務還需要考慮很多問題，比如一台機器雖然把全局ID先寫入了存儲，但是在寫入之後掛了，這就需要引入全局ID的超時機制。

使用全局唯一ID是一個通用方案，可以支持插入、更新、刪除業務操作。但是這個方案看起來很美但是實現起來比較麻煩，下面的方案適用於特定的場景，但是實現起來比較簡單。

4. excel表怎麼去掉重復數據

你好
平時用Excel表格處理大量數據的時候，總會遇到大量的重復無效數據。

如果只有幾十條數據，也就罷了，一條一條比對，很快也能清理完，可是如果數據多達上百條，甚至成千上萬條，還是去一條一條篩選，那得排查到過年了。

其實，Excel自帶很多簡單的重復數據處理功能，無論是刪除還是查找，只需點擊幾下，就能迅速處理表格中的重復數據，簡單又輕松。

今天，我們就來學習幾個Excel中處理重復數據的小功能，保證各位學會後，一定有相見恨晚的感覺。

查找重復數據

步驟：

1、用【WPS】打開需要處理的數據

2、單機上方工具欄中的【數據】

3、選擇【高亮重復項】→【設置高亮重復項】→確定

4、選擇【清除高亮重復項】，可去除高亮

刪除重復數據

步驟：

1、用【WPS】打開需要處理的數據

2、單機上方工具欄中的【數據】

3、選擇【數據工具】→【刪除重復項】

使用函數查找重復數據

使用函數將重復數據標記為重復，並且可以隱藏，需要的時候還可以找回，不用刪除哦，此功能非常人性化！

步驟：

1、用【WPS】打開需要處理的數據

2、在第一行數據右方的【單元格】中輸入函數【=IF(COUNTIF(A$2:A$16,A2)>1,"重復","")】，在這里一定要注意的一點是【函數括弧中的（單元格）】，需要根據各位在實際處理數據表格中【單元格的選擇范圍】來填寫。

3、最後講滑鼠移置單元格右下角，變為十字後，下拉即可

條件格式

使用條件格式查找重復數據這個功能跟上面的第一個【設置高亮重復項】把重復數據標出的功能有異曲同工之妙。

步驟：

1、用【WPS】打開要處理的表格數據

2、選擇需要處理的數據區域

3、在上述【開始】功能欄中選擇右方的【條件格式】

4、選擇【突出顯示單元格規則】→【重復值】，後邊可根據自己需要進行選擇

辦公技能延伸

在我們日常工作中，PDF是受到大家熱烈歡迎的一種文件格式，簡潔美觀，並且不易修改，如果我們想將手中的PDF文件進行PPT幻燈片展示的時候，就會很麻煩。

今天教各位一個方法，將PDF文檔轉換為PPT文件，就可以進行PPT幻燈片展示了。

5. 如何解決Oracle資料庫中重復數據的方法步驟

在平時的開發中，我們經常遇到數據表中出現重復的數據，那麼該如何解決呢？這里介紹兩種情況下的數據去重方法，一、完全重復數據去重；二、部分欄位數據重復去重。

一、完全重復數據去重方法

對於表中完全重復數據去重，可以採用以下SQL語句。

Code

CREATETABLE"#temp"AS (SELECTDISTINCT * FROM 表名);--創建臨時表，並把DISTINCT 去重後的數據插入到臨時表中

truncateTABLE 表名;--清空原表數據

INSERTINTO 表名(SELECT * FROM"#temp");--將臨時表數據插入到原表中

DROPTABLE"#temp";--刪除臨時表

具體思路是，首先創建一個臨時表，然後將DISTINCT之後的表數據插入到這個臨時表中；然後清空原表數據；再講臨時表中的數據插入到原表中；最後刪除臨時表。

二、部分數據去重方法

首先查找重復數據

select 欄位1,欄位2,count(*) from 表名 groupby 欄位1,欄位2 havingcount(*) > 1

將上面的>號改為=號就可以查詢出沒有重復的數據了。

想要刪除這些重復的數據，可以使用下面語句進行刪除：

deletefrom 表名 a where 欄位1,欄位2 in

(select 欄位1,欄位2,count(*) from 表名 groupby 欄位1,欄位2 havingcount(*) > 1)

上面的語句非常簡單，就是將查詢到的數據刪除掉。不過這種刪除執行的效率非常低，對於大數據量來說，可能會將資料庫卡死。

基於上述情況，可以先將查詢到的重復的數據插入到一個臨時表中，然後對進行刪除，這樣，執行刪除的時候就不用再進行一次查詢了。如下：

CREATETABLE 臨時表 AS

(select 欄位1,欄位2,count(*) from 表名 groupby 欄位1,欄位2 havingcount(*) > 1)

下面就可以進行這樣的刪除操作了：

deletefrom 表名 a where 欄位1,欄位2 in (select 欄位1，欄位2 from 臨時表);

先建臨時表再進行刪除的操作要比直接用一條語句進行刪除要高效得多。

上面的語句會把所有重復的全都刪除，在oracle中，有個隱藏了自動rowid，裡面給每條記錄一個唯一的rowid，我們如果想保留最新的一條記錄，我們就可以利用這個欄位，保留重復數據中rowid最大的一條記錄就可以了。

下面是查詢重復數據的一個例子：

select a.rowid,a.* from 表名 a

where a.rowid !=

(

selectmax(b.rowid) from 表名 b

where a.欄位1 = b.欄位1 and

a.欄位2 = b.欄位2

)

上面括弧中的語句是查詢出重復數據中rowid最大的一條記錄。而外面就是查詢出除了rowid最大之外的其他重復的數據了。

由此，我們要刪除重復數據，只保留最新的一條數據，就可以這樣寫了：

deletefrom 表名 a

where a.rowid !=

(

selectmax(b.rowid) from 表名 b

where a.欄位1 = b.欄位1 and

a.欄位2 = b.欄位2

)

同理，上述代碼的執行效率畢竟低，所以我們可以考慮建立臨時表，將需要判斷重復的欄位、rowid插入臨時表中，然後刪除的時候在進行比較。

createtable 臨時表 as

select a.欄位1,a.欄位2,MAX(a.ROWID) dataid from 正式表 a GROUPBY a.欄位1,a.欄位2;

deletefrom 表名 a

where a.rowid !=

(

select b.dataid from 臨時表 b

where a.欄位1 = b.欄位1 and

a.欄位2 = b.欄位2

);

commit;

6. 一起討論下，消息冪等（去重）通用解決方案

消息中間件是分布式系統常用的組件，無論是非同步化、解耦、削峰等都有廣泛的應用價值。我們通常會認為，消息中間件是一個可靠的組件——這里所謂的可靠是指，只要我把消息成功投遞到了消息中間件，消息就不會丟失，即消息肯定會至少保證消息能被消費者成功消費一次，這是消息中間件最基本的特性之一，也就是我們常說的「AT LEAST ONCE」，即消息至少會被「成功消費一遍」。

舉個例子，一個消息M發送到了消息中間件，消息投遞到了消費程序A，A接受到了消息，然後進行消費，但在消費到一半的時候程序重啟了，這時候這個消息並沒有標記為消費成功，這個消息還會繼續投遞給這個消費者，直到其消費成功了，消息中間件才會停止投遞。

然而這種可靠的特性導致，消息可能被多次地投遞。舉個例子，還是剛剛這個例子，程序A接受到這個消息M並完成消費邏輯之後，正想通知消息中間件「我已經消費成功了」的時候，程序就重啟了，那麼對於消息中間件來說，這個消息並沒有成功消費過，所以他還會繼續投遞。這時候對於應用程序A來說，看起來就是這個消息明明消費成功了，但是消息中間件還在重復投遞。

這在RockectMQ的場景來看，就是同一個messageId的消息重復投遞下來了。

基於消息的投遞可靠（消息不丟）是優先順序更高的，所以消息不重的任務就會轉移到應用程序自我實現，這也是為什麼RocketMQ的文檔里強調的，消費邏輯需要自我實現冪等。背後的邏輯其實就是：不丟和不重是矛盾的（在分布式場景下），但消息重復是有解決方案的，而消息丟失是很麻煩的。

例如：假設我們業務的消息消費邏輯是：插入某張訂單表的數據，然後更新庫存：

要實現消息的冪等，我們可能會採取這樣的方案：

這對於很多情況下，的確能起到不錯的效果，但是在並發場景下，還是會有問題。

假設這個消費的所有代碼加起來需要1秒，有重復的消息在這1秒內（假設100毫秒）內到達（例如生產者快速重發，Broker重啟等），那麼很可能，上面去重代碼裡面會發現，數據依然是空的（因為上一條消息還沒消費完，還沒成功更新訂單狀態），

那麼就會穿透掉檢查的擋板，最後導致重復的消息消費邏輯進入到非冪等安全的業務代碼中，從而引發重復消費的問題（如主鍵沖突拋出異常、庫存被重復扣減而沒釋放等）

要解決上面並發場景下的消息冪等問題，一個可取的方案是開啟事務把select 改成 select for update語句，把記錄進行鎖定。

但這樣消費的邏輯會因為引入了事務包裹而導致整個消息消費可能變長，並發度下降。

當然還有其他更高級的解決方案，例如更新訂單狀態採取樂觀鎖，更新失敗則消息重新消費之類的。但這需要針對具體業務場景做更復雜和細致的代碼開發、庫表設計，不在本文討論的范圍。

但無論是select for update，還是樂觀鎖這種解決方案，實際上都是基於業務表本身做去重，這無疑增加了業務開發的復雜度，一個業務系統裡面很大部分的請求處理都是依賴MQ的，如果每個消費邏輯本身都需要基於業務本身而做去重/冪等的開發的話，這是繁瑣的工作量。本文希望探索出一個通用的消息冪等處理的方法，從而抽象出一定的工具類用以適用各個業務場景。

在消息中間件里，有一個投遞語義的概念，而這個語義里有一個叫」Exactly Once」，即消息肯定會被成功消費，並且只會被消費一次。以下是阿里雲里對Exactly Once的解釋：

在我們業務消息冪等處理的領域內，可以認為業務消息的代碼肯定會被執行，並且只被執行一次，那麼我們可以認為是Exactly Once。

但這在分布式的場景下想找一個通用的方案幾乎是不可能的。不過如果是針對基於資料庫事務的消費邏輯，實際上是可行的。

假設我們業務的消息消費邏輯是：更新MySQL資料庫的某張訂單表的狀態：

要實現Exaclty Once即這個消息只被消費一次（並且肯定要保證能消費一次），我們可以這樣做：在這個資料庫中增加一個消息消費記錄表，把消息插入到這個表，並且把原來的訂單更新和這個插入的動作放到同一個事務中一起提交，就能保證消息只會被消費一遍了。

1、開啟事務
2、插入消息表（處理好主鍵沖突的問題）
3、更新訂單表（原消費邏輯）
4、提交事務

說明：

1、這時候如果消息消費成功並且事務提交了，那麼消息表就插入成功了，這時候就算RocketMQ還沒有收到消費位點的更新再次投遞，也會插入消息失敗而視為已經消費過，後續就直接更新消費位點了。這保證我們消費代碼只會執行一次。2、如果事務提交之前服務掛了（例如重啟），對於本地事務並沒有執行所以訂單沒有更新，消息表也沒插入成功；而對於RocketMQ服務端來說，消費位點也沒更新，所以消息還會繼續投遞下來，投遞下來發現這個消息插入消息表也是成功的，所以可以繼續消費。這保證了消息不丟失。

事實上，阿里雲ONS的EXACTLY-ONCE語義的實現上，就是類似這個方案基於資料庫的事務特性實現的。更多詳情可參考：https://help.aliyun.com/document_detail/102777.html

基於這種方式，的確這是有能力拓展到不同的應用場景，因為他的實現方案與具體業務本身無關——而是依賴一個消息表。

但是這里有它的局限性

1、消息的消費邏輯必須是依賴於關系型資料庫事務。如果消費的消費過程中還涉及其他數據的修改，例如Redis這種不支持事務特性的數據源，則這些數據是不可回滾的。
2、資料庫的數據必須是在一個庫，跨庫無法解決

註：業務上，消息表的設計不應該以消息ID作為標識，而應該以業務的業務主鍵作為標識更為合理，以應對生產者的重發。阿里雲上的消息去重只是RocketMQ的messageId，在生產者因為某些原因手動重發（例如上游針對一個交易重復請求了）的場景下起不到去重/冪等的效果（因消息id不同）。

如上所述，這種方式Exactly Once語義的實現，實際上有很多局限性，這種局限性使得這個方案基本不具備廣泛應用的價值。並且由於基於事務，可能導致鎖表時間過長等性能問題。

例如我們以一個比較常見的一個訂單申請的消息來舉例，可能有以下幾步（以下統稱為步驟X）：

1、檢查庫存（RPC）
2、鎖庫存（RPC）
3、開啟事務，插入訂單表（MySQL）
4、調用某些其他下游服務（RPC）
5、更新訂單狀態
6、 commit 事務（MySQL）

這種情況下，我們如果採取消息表+本地事務的實現方式，消息消費過程中很多子過程是不支持回滾的，也就是說就算我們加了事務，實際上這背後的操作並不是原子性的。怎麼說呢，就是說有可能第一條小在經歷了第二步鎖庫存的時候，服務重啟了，這時候實際上庫存是已經在另外的服務里被鎖定了，這並不能被回滾。當然消息還會再次投遞下來，要保證消息能至少消費一遍，換句話說，鎖庫存的這個RPC介面本身依舊要支持「冪等」。

再者，如果在這個比較耗時的長鏈條場景下加入事務的包裹，將大大的降低系統的並發。所以通常情況下，我們處理這種場景的消息去重的方法還是會使用一開始說的業務自己實現去重邏輯的方式，如前面加select for update，或者使用樂觀鎖。

那我們有沒有方法抽取出一個公共的解決方案，能兼顧去重、通用、高性能呢？

其中一個思路是把上面的幾步，拆解成幾個不同的子消息，例如：

1、庫存系統消費A：檢查庫存並做鎖庫存，發送消息B給訂單服務
2、訂單系統消費消息B：插入訂單表（MySQL），發送消息C給自己（下游系統）消費
3、下游系統消費消息C：處理部分邏輯，發送消息D給訂單系統
4、訂單系統消費消息D：更新訂單狀態

註：上述步驟需要保證本地事務和消息是一個事務的（至少是最終一致性的），這其中涉及到分布式事務消息相關的話題，不在本文論述。

可以看到這樣的處理方法會使得每一步的操作都比較原子，而原子則意味著是小事務，小事務則意味著使用消息表+事務的方案顯得可行。

然而，這太復雜了！這把一個本來連續的代碼邏輯割裂成多個系統多次消息交互！那還不如業務代碼層面上加鎖實現呢。

上面消息表+本地事務的方案之所以有其局限性和並發的短板，究其根本是因為它依賴於關系型資料庫的事務，且必須要把事務包裹於整個消息消費的環節。

如果我們能不依賴事務而實現消息的去重，那麼方案就能推廣到更復雜的場景例如：RPC、跨庫等。

例如，我們依舊使用消息表，但是不依賴事務，而是針對消息表增加消費狀態，是否可以解決問題呢？

67_1.png

以上是去事務化後的消息冪等方案的流程，可以看到，此方案是無事務的，而是針對消息表本身做了狀態的區分：消費中、消費完成。只有消費完成的消息才會被冪等處理掉。而對於已有消費中的消息，後面重復的消息會觸發延遲消費（在RocketMQ的場景下即發送到RETRY TOPIC），之所以觸發延遲消費是為了控制並發場景下，第二條消息在第一條消息沒完成的過程中，去控制消息不丟（如果直接冪等，那麼會丟失消息（同一個消息id的話），因為上一條消息如果沒有消費完成的時候，第二條消息你已經告訴broker成功了，那麼第一條消息這時候失敗broker也不會重新投遞了）

上面的流程不再細說，後文有github源碼的地址，讀者可以參考源碼的實現，這里我們回頭看看我們一開始想解決的問題是否解決了：

1、消息已經消費成功了，第二條消息將被直接冪等處理掉（消費成功）。
2、並發場景下的消息，依舊能滿足不會出現消息重復，即穿透冪等擋板的問題。
3、支持上游業務生產者重發的業務重復的消息冪等問題。

關於第一個問題已經很明顯已經解決了，在此就不討論了。

關於第二個問題是如何解決的？主要是依靠插入消息表的這個動作做控制的，假設我們用MySQL作為消息表的存儲媒介（設置消息的唯一ID為主鍵），那麼插入的動作只有一條消息會成功，後面的消息插入會由於主鍵沖突而失敗，走向延遲消費的分支，然後後面延遲消費的時候就會變成上面第一個場景的問題。

關於第三個問題，只要我們設計去重的消息鍵讓其支持業務的主鍵（例如訂單號、請求流水號等），而不僅僅是messageId即可。所以也不是問題。

如果細心的讀者可能會發現這里實際上是有邏輯漏洞的，問題出在上面聊到的個三問題中的第2個問題（並發場景），在並發場景下我們依賴於消息狀態是做並發控制使得第2條消息重復的消息會不斷延遲消費（重試）。但如果這時候第1條消息也由於一些異常原因（例如機器重啟了、外部異常導致消費失敗）沒有成功消費成功呢？也就是說這時候延遲消費實際上每次下來看到的都是消費中的狀態，最後消費就會被視為消費失敗而被投遞到死信Topic中（RocketMQ默認可以重復消費16次）。

有這種顧慮是正確的！對於此，我們解決的方法是，插入的消息表必須要帶一個最長消費過期時間，例如10分鍾，意思是如果一個消息處於消費中超過10分鍾，就需要從消息表中刪除（需要程序自行實現）。所以最後這個消息的流程會是這樣的：

67_2.png

我們這個方案實際上沒有事務的，只需要一個存儲的中心媒介，那麼自然我們可以選擇更靈活的存儲媒介，例如Redis。使用Redis有兩個好處：

1、性能上損耗更低
2、上面我們講到的超時時間可以直接利用Redis本身的ttl實現

當然Redis存儲的數據可靠性、一致性等方面是不如MySQL的，需要用戶自己取捨。

以上方案針對RocketMQ的Java實現已經開源放到Github中，具體的使用文檔可以參考https://github.com/Jaskey/RocketMQDepListener ，

以下僅貼一個Readme中利用Redis去重的使用樣例，用以意業務中如果使用此工具加入消息去重冪等的是多麼簡單：

以上代碼大部分是原始RocketMQ的必須代碼，唯一需要修改的僅僅是創建一個 DepConcurrentListener 示例，在這個示例中指明你的消費邏輯和去重的業務鍵（默認是messageId）。

更多使用詳情請參考Github上的說明。

實現到這里，似乎方案挺完美的，所有的消息都能快速的接入去重，且與具體業務實現也完全解耦。那麼這樣是否就完美的完成去重的所有任務呢？

很可惜，其實不是的。原因很簡單：因為要保證消息至少被成功消費一遍，那麼消息就有機會消費到一半的時候失敗觸發消息重試的可能。還是以上面的訂單流程X：

1、檢查庫存（RPC）
2、鎖庫存（RPC）
3、開啟事務，插入訂單表（MySQL）
4、調用某些其他下游服務（RPC）
5、更新訂單狀態
6、 commit 事務（MySQL）

當消息消費到步驟3的時候，我們假設MySQL異常導致失敗了，觸發消息重試。因為在重試前我們會刪除冪等表的記錄，所以消息重試的時候就會重新進入消費代碼，那麼步驟1和步驟2就會重新再執行一遍。如果步驟2本身不是冪等的，那麼這個業務消息消費依舊沒有做好完整的冪等處理。

那麼既然這個並不能完整的完成消息冪等，還有什麼價值呢？價值可就大了！雖然這不是解決消息冪等的銀彈（事實上，軟體工程領域里基本沒有銀彈），但是他能以便捷的手段解決：

1、各種由於Broker、負載均衡等原因導致的消息重投遞的重復問題

2、各種上游生產者導致的業務級別消息重復問題

3、重復消息並發消費的控制窗口問題，就算重復，重復也不可能同一時間進入消費邏輯

也就是說，使用這個方法能保證正常的消費邏輯場景下（無異常，無異常退出），消息的冪等工作全部都能解決，無論是業務重復，還是rocketmq特性帶來的重復。

事實上，這已經能解決99%的消息重復問題了，畢竟異常的場景肯定是少數的。那麼如果希望異常場景下也能處理好冪等的問題，可以做以下工作降低問題率：

1、消息消費失敗做好回滾處理。如果消息消費失敗本身是帶回滾機制的，那麼消息重試自然就沒有副作用了。
2、消費者做好優雅退出處理。這是為了盡可能避免消息消費到一半程序退出導致的消息重試。
3、一些無法做到冪等的操作，至少要做到終止消費並告警。例如鎖庫存的操作，如果統一的業務流水鎖成功了一次庫存，再觸發鎖庫存，如果做不到冪等的處理，至少要做到消息消費觸發異常（例如主鍵沖突導致消費異常等）
4、在#3做好的前提下，做好消息的消費監控，發現消息重試不斷失敗的時候，手動做好#1的回滾，使得下次重試消費成功

7. 如何刪除資料庫中的重復數據

有兩個意義上的重復記錄

①完全重復的記錄，也即所有欄位均重復的記錄。

②部分關鍵欄位重復的記錄，比如Name欄位重復，而其他欄位不一定重復或都重復可以忽略。

1、對於第一種重復，比較容易解決，使用

selectdistinct*fromtableName

這樣就可以得到無重復記錄的結果集。然後通過臨時表實現對數據的維護。

selectdistinct*into#TmpfromtableName
droptabletableName
select*intotableNamefrom#Tmp
droptable#Tmp

#Tmp為什麼系統參數，tableName為要操作的表名。

2、第二類重復問題通常要求保留重復記錄中的第一條記錄，操作方法如下：

假設有重復的欄位為Name,Address，要求得到這兩個欄位唯一的結果集

selectidentity(int,1,1)asautoID,*into#TmpfromtableName
selectmin(autoID)asautoIDinto#Tmp2from#TmpgroupbyName,autoID
select*from#TmpwhereautoIDin(selectautoIDfrom#tmp2)

最後一個select即得到了Name，Address不重復的結果集（但多了一個autoID欄位，實際寫時可以寫在select子句中省去此列）

8. 介面冪等問題探究

最近遇到一些問題，表單重復提交，導致插入重復數據到資料庫，這里查詢一些通用的方案，自己都實踐一下，以後好回顧。

實踐代碼項目 Github： https://github.com/h-dj/Spring-Learning/tree/master/repeat-submit

冪等（idempotent、idempotence）是一個數學與計算機學概念，常見於抽象代數中。

在編程中一個冪等操作的特點是其任意多次執行所產生的影響均與一次執行的影響相同。冪等函數，或冪等方法，是指可以使用相同參數重復執行，並能獲得相同結果的函數。這些函數不會影響系統狀態，也不用擔心重復執行會對系統造成改變。--- 網路

簡單理解：就是針對一個操作，不管做多少次，產生的效果都是一樣的。

舉例：

對於業務中需要考慮冪等性的地方一般都是介面的重復請求，重復請求是指同一個請求因為某些原因被多次提交。導致這個情況會有以下幾種場景：

前端方面：

後台方面：

注意：

以下准備使用加入購物車為例，實現各個方案

分布式鎖可以使用 Redis 和 Zookeeper ，更多關於 Redis 和 Zookeeper 的使用請自行查閱資料。以下使用 Redis 來實現分布式鎖

以上是較為常見通用的冪等方案，但實際業務可能比較個性化，需要跟業務結合進行考慮，採用合適的方法或結合使用，例如：

本文作者：JiaJianHuang

本文鏈接：https://www.cnblogs.com/JianJianHuang/p/15702912.html

9. 如何保證冪等性

數據的對象和范圍
你要考慮你的冪等的全局性：空間全局性和時間全局性。
空間全局性：比如是交易流水冪等還是用戶ID冪等。是某種類型交易流水冪等，還是某個人|機構|渠道的交易流水冪等
時間全局性：是冪等幾秒，還是幾分鍾，還是永遠。
不同的要求，可以有不一樣的解決方案、難度和成本。
冪等方案
對時間全局性要求高的，可能就必須選擇DB這種持久化方案比較可靠，但是性能不夠好啊（然後就要考慮loadmemory，以及數據同步的問題，就一步還要考慮實時性要求了）
在空間的要求中，根據不同的冪等范圍，可以考慮分布式資料庫（分布式集群全局流水號冪等）。還是某種少量數據冪等（可能只需要單台，做好主備）。

10. Excel中如何去掉重復數據

啟動Excel2013，例如有如下表格，發現表格中「學生3」和「學生4」有重復的記錄。下面解決如何刪除重復的記錄。
選中表格中的需要查找重復值的一列或區域的數據。這里選擇整個表格為例，選中的效果如下圖所示。單擊「開始」選項卡，然後單擊「樣式」組中的「條件格式」中的下三角號，在彈出菜單中依次選擇「突出顯示單元格規則」—「重復值」。打開「重復值」對話框，
在「為包含以下類型的單元格設置格式」下的，可以選擇默認的「重復值」設置為「淺紅填充色深紅色文本」，然後單擊「確定」。這時候可以對數據進行顏色排序和篩選，單擊「數據」選項卡，然後單擊「排序和篩選」組中的「篩選」。這時可以選擇數據標題行的某一列的下三角，然後選擇「按顏色排序」—「按單元格顏色排序」中的顏色單元格（上述設置的重復數據的單元格的顏色）。這時發現第4行到第7行都是重復的數據（如下圖所示），然後刪除掉重復的數據就可以了哦。

閱讀全文

與如何解決重復數據冪等相關的資料

熱點內容

新房在哪裡交易比較好發布：2025-02-13 14:59:36 瀏覽：901

電子焊接技術在哪裡學發布：2025-02-13 14:54:43 瀏覽：180

龍崗市批發市場在哪裡發布：2025-02-13 14:31:25 瀏覽：557

如何獲得癌症發病數據發布：2025-02-13 14:31:21 瀏覽：955

現在市場生豬什麼價發布：2025-02-13 14:26:55 瀏覽：503

圖文信息處理技術專業怎麼樣發布：2025-02-13 14:20:01 瀏覽：65

山西素肉技術培訓多少錢發布：2025-02-13 14:19:57 瀏覽：907

蘋果手機微信怎麼逐條回復信息發布：2025-02-13 14:05:15 瀏覽：703

如何靜止電腦程序開機自啟發布：2025-02-13 13:59:57 瀏覽：630

浙江金華交通技術學院有哪些專業發布：2025-02-13 13:56:59 瀏覽：52

我的世界什麼東西都可以交易發布：2025-02-13 13:56:55 瀏覽：916

皇茶什麼加盟代理發布：2025-02-13 13:35:15 瀏覽：366

南寧龍屯農貿市場是哪個開發商的發布：2025-02-13 13:34:07 瀏覽：809

如何查看會展信息發布：2025-02-13 13:04:22 瀏覽：745

華港燃氣公司客戶信息怎麼看發布：2025-02-13 12:57:02 瀏覽：893

小程序我的訂單如何隱藏發布：2025-02-13 12:46:00 瀏覽：573

岳西有哪些名牌產品發布：2025-02-13 12:22:41 瀏覽：279

微信運動如何顯示小程序發布：2025-02-13 12:10:58 瀏覽：436

工廠技術員考核表怎麼寫發布：2025-02-13 11:58:37 瀏覽：353

程序員和架構師哪個好發布：2025-02-13 11:54:49 瀏覽：589