分布式事務(wù)最經(jīng)典的七種解決方案
◆ 基礎(chǔ)理論
在講解具體方案之前,我們先了解一下分布式事務(wù)所涉及到的基礎(chǔ)理論知識(shí)。我們拿轉(zhuǎn)賬作為例子,A需要轉(zhuǎn)100元給B,那么需要給A的余額-100元,給B的余額 100元,整個(gè)轉(zhuǎn)賬要保證,A-100和B 100同時(shí)成功,或者同時(shí)失敗??纯丛诟鞣N場(chǎng)景下,是如何解決這個(gè)問(wèn)題的。◆ 事務(wù)
把多條語(yǔ)句作為一個(gè)整體進(jìn)行操作的功能,被稱為數(shù)據(jù)庫(kù)事務(wù)。數(shù)據(jù)庫(kù)事務(wù)可以確保該事務(wù)范圍內(nèi)的所有操作都可以全部成功或者全部失敗。事務(wù)具有 4 個(gè)屬性:原子性、一致性、隔離性、持久性。這四個(gè)屬性通常稱為 ACID 特性。- Atomicity(原子性):一個(gè)事務(wù)中的所有操作,要么全部完成,要么全部不完成,不會(huì)結(jié)束在中間某個(gè)環(huán)節(jié)。事務(wù)在執(zhí)行過(guò)程中發(fā)生錯(cuò)誤,會(huì)被恢復(fù)到事務(wù)開(kāi)始前的狀態(tài),就像這個(gè)事務(wù)從來(lái)沒(méi)有執(zhí)行過(guò)一樣。
- Consistency(一致性):在事務(wù)開(kāi)始之前和事務(wù)結(jié)束以后,數(shù)據(jù)庫(kù)的完整性沒(méi)有被破壞。完整性包括外鍵約束、應(yīng)用定義的等約束不會(huì)被破壞。
- Isolation(隔離性):數(shù)據(jù)庫(kù)允許多個(gè)并發(fā)事務(wù)同時(shí)對(duì)其數(shù)據(jù)進(jìn)行讀寫和修改的能力,隔離性可以防止多個(gè)事務(wù)并發(fā)執(zhí)行時(shí)由于交叉執(zhí)行而導(dǎo)致數(shù)據(jù)的不一致。
- Durability(持久性):事務(wù)處理結(jié)束后,對(duì)數(shù)據(jù)的修改就是永久的,即便系統(tǒng)故障也不會(huì)丟失。
◆ 分布式事務(wù)
銀行跨行轉(zhuǎn)賬業(yè)務(wù)是一個(gè)典型分布式事務(wù)場(chǎng)景,假設(shè)A需要跨行轉(zhuǎn)賬給B,那么就涉及兩個(gè)銀行的數(shù)據(jù),無(wú)法通過(guò)一個(gè)數(shù)據(jù)庫(kù)的本地事務(wù)保證轉(zhuǎn)賬的ACID,只能夠通過(guò)分布式事務(wù)來(lái)解決。分布式事務(wù)就是指事務(wù)的發(fā)起者、資源及資源管理器和事務(wù)協(xié)調(diào)者分別位于分布式系統(tǒng)的不同節(jié)點(diǎn)之上。在上述轉(zhuǎn)賬的業(yè)務(wù)中,用戶A-100操作和用戶B 100操作不是位于同一個(gè)節(jié)點(diǎn)上。本質(zhì)上來(lái)說(shuō),分布式事務(wù)就是為了保證在分布式場(chǎng)景下,數(shù)據(jù)操作的正確執(zhí)行。分布式事務(wù)在分布式環(huán)境下,為了滿足可用性、性能與降級(jí)服務(wù)的需要,降低一致性與隔離性的要求,一方面遵循 BASE 理論(BASE相關(guān)理論,涉及內(nèi)容非常多,感興趣的同學(xué),可以參考BASE理論):基本業(yè)務(wù)可用性(Basic Availability)柔性狀態(tài)(Soft state)
最終一致性(Eventual consistency)
同樣的,分布式事務(wù)也部分遵循 ACID 規(guī)范:原子性:嚴(yán)格遵循
一致性:事務(wù)完成后的一致性嚴(yán)格遵循;事務(wù)中的一致性可適當(dāng)放寬
隔離性:并行事務(wù)間不可影響;事務(wù)中間結(jié)果可見(jiàn)性允許安全放寬
持久性:嚴(yán)格遵循
◆ 分布式事務(wù)的解決方案
◆ 兩階段提交/XA
XA是由X/Open組織提出的分布式事務(wù)的規(guī)范,XA規(guī)范主要定義了(全局)事務(wù)管理器(TM)和(局部)資源管理器(RM)之間的接口。本地的數(shù)據(jù)庫(kù)如mysql在XA中扮演的是RM角色XA一共分為兩階段:第一階段(prepare):即所有的參與者RM準(zhǔn)備執(zhí)行事務(wù)并鎖住需要的資源。參與者ready時(shí),向TM報(bào)告已準(zhǔn)備就緒。第二階段 (commit/rollback):當(dāng)事務(wù)管理者(TM)確認(rèn)所有參與者(RM)都ready后,向所有參與者發(fā)送commit命令。
目前主流的數(shù)據(jù)庫(kù)基本都支持XA事務(wù),包括mysql、oracle、sqlserver、postgreXA 事務(wù)由一個(gè)或多個(gè)資源管理器(RM)、一個(gè)事務(wù)管理器(TM)和一個(gè)應(yīng)用程序(ApplicationProgram)組成。把上面的轉(zhuǎn)賬作為例子,一個(gè)成功完成的XA事務(wù)時(shí)序圖如下:
- 簡(jiǎn)單易理解,開(kāi)發(fā)較容易
- 對(duì)資源進(jìn)行了長(zhǎng)時(shí)間的鎖定,并發(fā)度低
◆ SAGA
Saga是這一篇數(shù)據(jù)庫(kù)論文saga提到的一個(gè)方案。其核心思想是將長(zhǎng)事務(wù)拆分為多個(gè)本地短事務(wù),由Saga事務(wù)協(xié)調(diào)器協(xié)調(diào),如果正常結(jié)束那就正常完成,如果某個(gè)步驟失敗,則根據(jù)相反順序一次調(diào)用補(bǔ)償操作。把上面的轉(zhuǎn)賬作為例子,一個(gè)成功完成的SAGA事務(wù)時(shí)序圖如下:SAGA事務(wù)的特點(diǎn):
- 并發(fā)度高,不用像XA事務(wù)那樣長(zhǎng)期鎖定資源
- 需要定義正常操作以及補(bǔ)償操作,開(kāi)發(fā)量比XA大
- 一致性較弱,對(duì)于轉(zhuǎn)賬,可能發(fā)生A用戶已扣款,最后轉(zhuǎn)賬又失敗的情況
◆ TCC
關(guān)于 TCC(Try-Confirm-Cancel)的概念,最早是由 Pat Helland 于 2007 年發(fā)表的一篇名為《Life beyond Distributed Transactions:an Apostate’s Opinion》的論文提出。TCC分為3個(gè)階段- Try 階段:嘗試執(zhí)行,完成所有業(yè)務(wù)檢查(一致性), 預(yù)留必須業(yè)務(wù)資源(準(zhǔn)隔離性)
- Confirm 階段:確認(rèn)執(zhí)行真正執(zhí)行業(yè)務(wù),不作任何業(yè)務(wù)檢查,只使用 Try 階段預(yù)留的業(yè)務(wù)資源,Confirm 操作要求具備冪等設(shè)計(jì),Confirm 失敗后需要進(jìn)行重試。
- Cancel 階段:取消執(zhí)行,釋放 Try 階段預(yù)留的業(yè)務(wù)資源。Cancel 階段的異常和 Confirm 階段異常處理方案基本上一致,要求滿足冪等設(shè)計(jì)。
TCC特點(diǎn)如下:
- 并發(fā)度較高,無(wú)長(zhǎng)期資源鎖定。
- 開(kāi)發(fā)量較大,需要提供Try/Confirm/Cancel接口。
- 一致性較好,不會(huì)發(fā)生SAGA已扣款最后又轉(zhuǎn)賬失敗的情況
- TCC適用于訂單類業(yè)務(wù),對(duì)中間狀態(tài)有約束的業(yè)務(wù)
◆ 本地消息表
本地消息表這個(gè)方案最初是 ebay 架構(gòu)師 Dan Pritchett 在 2008 年發(fā)表給 ACM 的文章。設(shè)計(jì)核心是將需要分布式處理的任務(wù)通過(guò)消息的方式來(lái)異步確保執(zhí)行。大致流程如下:寫本地消息和業(yè)務(wù)操作放在一個(gè)事務(wù)里,保證了業(yè)務(wù)和發(fā)消息的原子性,要么他們?nèi)汲晒?,要么全都失敗?br /> 容錯(cuò)機(jī)制:- 扣減余額事務(wù) 失敗時(shí),事務(wù)直接回滾,無(wú)后續(xù)步驟
- 輪序生產(chǎn)消息失敗, 增加余額事務(wù)失敗都會(huì)進(jìn)行重試
- 長(zhǎng)事務(wù)僅需要分拆成多個(gè)任務(wù),使用簡(jiǎn)單
- 生產(chǎn)者需要額外的創(chuàng)建消息表
- 每個(gè)本地消息表都需要進(jìn)行輪詢
- 消費(fèi)者的邏輯如果無(wú)法通過(guò)重試成功,那么還需要更多的機(jī)制,來(lái)回滾操作
◆ 事務(wù)消息
在上述的本地消息表方案中,生產(chǎn)者需要額外創(chuàng)建消息表,還需要對(duì)本地消息表進(jìn)行輪詢,業(yè)務(wù)負(fù)擔(dān)較重。阿里開(kāi)源的RocketMQ 4.3之后的版本正式支持事務(wù)消息,該事務(wù)消息本質(zhì)上是把本地消息表放到RocketMQ上,解決生產(chǎn)端的消息發(fā)送與本地事務(wù)執(zhí)行的原子性問(wèn)題。事務(wù)消息發(fā)送及提交:- 發(fā)送消息(half消息)
- 服務(wù)端存儲(chǔ)消息,并響應(yīng)消息的寫入結(jié)果
- 根據(jù)發(fā)送結(jié)果執(zhí)行本地事務(wù)(如果寫入失敗,此時(shí)half消息對(duì)業(yè)務(wù)不可見(jiàn),本地邏輯不執(zhí)行)
- 根據(jù)本地事務(wù)狀態(tài)執(zhí)行Commit或者Rollback(Commit操作發(fā)布消息,消息對(duì)消費(fèi)者可見(jiàn))
補(bǔ)償流程:對(duì)沒(méi)有Commit/Rollback的事務(wù)消息(pending狀態(tài)的消息),從服務(wù)端發(fā)起一次“回查”
Producer收到回查消息,返回消息對(duì)應(yīng)的本地事務(wù)的狀態(tài),為Commit或者Rollback
事務(wù)消息方案與本地消息表機(jī)制非常類似,區(qū)別主要在于原先相關(guān)的本地表操作替換成了一個(gè)反查接口事務(wù)消息特點(diǎn)如下:
- 長(zhǎng)事務(wù)僅需要分拆成多個(gè)任務(wù),并提供一個(gè)反查接口,使用簡(jiǎn)單
- 消費(fèi)者的邏輯如果無(wú)法通過(guò)重試成功,那么還需要更多的機(jī)制,來(lái)回滾操作
◆ 最大努力通知
發(fā)起通知方通過(guò)一定的機(jī)制最大努力將業(yè)務(wù)處理結(jié)果通知到接收方。具體包括:有一定的消息重復(fù)通知機(jī)制。因?yàn)榻邮胀ㄖ娇赡軟](méi)有接收到通知,此時(shí)要有一定的機(jī)制對(duì)消息重復(fù)通知。消息校對(duì)機(jī)制。如果盡最大努力也沒(méi)有通知到接收方,或者接收方消費(fèi)消息后要再次消費(fèi),此時(shí)可由接收方主動(dòng)向通知方查詢消息信息來(lái)滿足需求。
前面介紹的的本地消息表和事務(wù)消息都屬于可靠消息,與這里介紹的最大努力通知有什么不同?可靠消息一致性,發(fā)起通知方需要保證將消息發(fā)出去,并且將消息發(fā)到接收通知方,消息的可靠性關(guān)鍵由發(fā)起通知方來(lái)保證。最大努力通知,發(fā)起通知方盡最大的努力將業(yè)務(wù)處理結(jié)果通知為接收通知方,但是可能消息接收不到,此時(shí)需要接收通知方主動(dòng)調(diào)用發(fā)起通知方的接口查詢業(yè)務(wù)處理結(jié)果,通知的可靠性關(guān)鍵在接收通知方。解決方案上,最大努力通知需要:
- 提供接口,讓接受通知放能夠通過(guò)接口查詢業(yè)務(wù)處理結(jié)果
- 消息隊(duì)列ACK機(jī)制,消息隊(duì)列按照間隔1min、5min、10min、30min、1h、2h、5h、10h的方式,逐步拉大通知間隔 ,直到達(dá)到通知要求的時(shí)間窗口上限。之后不再通知
◆ AT事務(wù)模式
這是阿里開(kāi)源項(xiàng)目seata中的一種事務(wù)模式,在螞蟻金服也被稱為FMT。優(yōu)點(diǎn)是該事務(wù)模式使用方式,類似XA模式,業(yè)務(wù)無(wú)需編寫各類補(bǔ)償操作,回滾由框架自動(dòng)完成,缺點(diǎn)也類似AT,存在較長(zhǎng)時(shí)間的鎖,不滿足高并發(fā)的場(chǎng)景。有興趣的同學(xué)可以參考seata-AT◆ 分布式事務(wù)中的網(wǎng)絡(luò)異常
在分布式事務(wù)的各個(gè)環(huán)節(jié)都有可能出現(xiàn)網(wǎng)絡(luò)以及業(yè)務(wù)故障等問(wèn)題,這些問(wèn)題需要分布式事務(wù)的業(yè)務(wù)方做到防空回滾,冪等,防懸掛三個(gè)特性,下面以TCC事務(wù)說(shuō)明這些異常情況:空回滾: 在沒(méi)有調(diào)用 TCC 資源 Try 方法的情況下,調(diào)用了二階段的 Cancel 方法,Cancel 方法需要識(shí)別出這是一個(gè)空回滾,然后直接返回成功。 出現(xiàn)原因是當(dāng)一個(gè)分支事務(wù)所在服務(wù)宕機(jī)或網(wǎng)絡(luò)異常,分支事務(wù)調(diào)用記錄為失敗,這個(gè)時(shí)候其實(shí)是沒(méi)有執(zhí)行Try階段,當(dāng)故障恢復(fù)后,分布式事務(wù)進(jìn)行回滾則會(huì)調(diào)用二階段的Cancel方法,從而形成空回滾。冪等: 由于任何一個(gè)請(qǐng)求都可能出現(xiàn)網(wǎng)絡(luò)異常,出現(xiàn)重復(fù)請(qǐng)求,所以所有的分布式事務(wù)分支,都需要保證冪等性懸掛: 懸掛就是對(duì)于一個(gè)分布式事務(wù),其二階段 Cancel 接口比 Try 接口先執(zhí)行。 出現(xiàn)原因是在 RPC 調(diào)用分支事務(wù)try時(shí),先注冊(cè)分支事務(wù),再執(zhí)行RPC調(diào)用,如果此時(shí) RPC 調(diào)用的網(wǎng)絡(luò)發(fā)生擁堵,RPC 超時(shí)以后,TM就會(huì)通知RM回滾該分布式事務(wù),可能回滾完成后,RPC 請(qǐng)求才到達(dá)參與者真正執(zhí)行。下面看一個(gè)網(wǎng)絡(luò)異常的時(shí)序圖,更好的理解上述幾種問(wèn)題業(yè)務(wù)處理請(qǐng)求4的時(shí)候,Cancel在Try之前執(zhí)行,需要處理空回滾
業(yè)務(wù)處理請(qǐng)求6的時(shí)候,Cancel重復(fù)執(zhí)行,需要冪等
業(yè)務(wù)處理請(qǐng)求8的時(shí)候,Try在Cancel后執(zhí)行,需要處理懸掛面對(duì)上述復(fù)雜的網(wǎng)絡(luò)異常情況,目前看到各家建議的方案都是業(yè)務(wù)方通過(guò)唯一鍵,去查詢相關(guān)聯(lián)的操作是否已完成,如果已完成則直接返回成功。相關(guān)的判斷邏輯較復(fù)雜,易出錯(cuò),業(yè)務(wù)負(fù)擔(dān)重。在項(xiàng)目DTM中,出現(xiàn)了一種子事務(wù)屏障技術(shù),使用該技術(shù),能夠達(dá)到這個(gè)效果,看示意圖:
子事務(wù)屏障提供了方法ThroughBarrierCall,方法的原型為:func ThroughBarrierCall(db *sql.DB, transInfo *TransInfo, busiCall BusiFunc) 業(yè)務(wù)開(kāi)發(fā)人員,在busiCall里面編寫自己的相關(guān)邏輯,調(diào)用該函數(shù)。ThroughBarrierCall保證,在空回滾、懸掛等場(chǎng)景下,busiCall不會(huì)被調(diào)用;在業(yè)務(wù)被重復(fù)調(diào)用時(shí),有冪等控制,保證只被提交一次。子事務(wù)屏障會(huì)管理TCC、SAGA、XA、事務(wù)消息等,也可以擴(kuò)展到其他領(lǐng)域子事務(wù)屏障技術(shù)的原理是,在本地?cái)?shù)據(jù)庫(kù),建立分支事務(wù)狀態(tài)表sub_trans_barrier,唯一鍵為全局事務(wù)id-子事務(wù)id-子事務(wù)分支名稱(try|confirm|cancel)
- 開(kāi)啟事務(wù)
- 如果是Try分支,則那么insert ignore插入gid-branchid-try,如果成功插入,則調(diào)用屏障內(nèi)邏輯
- 如果是Confirm分支,那么insert ignore插入gid-branchid-confirm,如果成功插入,則調(diào)用屏障內(nèi)邏輯
- 如果是Cancel分支,那么insert ignore插入gid-branchid-try,再插入gid-branchid-cancel,如果try未插入并且cancel插入成功,則調(diào)用屏障內(nèi)邏輯
- 屏障內(nèi)邏輯返回成功,提交事務(wù),返回成功
- 屏障內(nèi)邏輯返回錯(cuò)誤,回滾事務(wù),返回錯(cuò)誤
- 空補(bǔ)償控制--如果Try沒(méi)有執(zhí)行,直接執(zhí)行了Cancel,那么Cancel插入gid-branchid-try會(huì)成功,不走屏障內(nèi)的邏輯,保證了空補(bǔ)償控制
- 冪等控制--任何一個(gè)分支都無(wú)法重復(fù)插入唯一鍵,保證了不會(huì)重復(fù)執(zhí)行
- 防懸掛控制--Try在Cancel之后執(zhí)行,那么插入的gid-branchid-try不成功,就不執(zhí)行,保證了防懸掛控制
◆ 總結(jié)
本文介紹了分布式事務(wù)的一些基礎(chǔ)理論,并對(duì)常用的分布式事務(wù)方案進(jìn)行了講解,在文章的后半部分還給出了事務(wù)異常的原因、分類以及優(yōu)雅的解決方案。