當(dāng)前位置:首頁 > 公眾號精選 > 架構(gòu)師社區(qū)
[導(dǎo)讀]作者:vivo互聯(lián)網(wǎng)服務(wù)器團(tuán)隊-ZhangZhenglin一、簡介RocketMQ是阿里巴巴開源的分布式消息中間件,它借鑒了Kafka實現(xiàn),支持消息訂閱與發(fā)布、順序消息、事務(wù)消息、定時消息、消息回溯、死信隊列等功能。RocketMQ架構(gòu)上主要分為四部分,如下圖所示:Produce...

ckquote class="js_blockquote_wrap" data-type="2" data-url="" data-author-name="" data-content-utf8-length="31" data-source-title="">作者:vivo互聯(lián)網(wǎng)服務(wù)器團(tuán)隊-Zhang Zhenglin

一、簡介


RocketMQ 是阿里巴巴開源的分布式消息中間件,它借鑒了 Kafka 實現(xiàn),支持消息訂閱與發(fā)布、順序消息、事務(wù)消息、定時消息、消息回溯、死信隊列等功能。RocketMQ 架構(gòu)上主要分為四部分,如下圖所示:


深入剖析?RocketMQ?源碼?-?消息存儲模塊


  • Producer:消息生產(chǎn)者,支持分布式集群方式部署。

  • Consumer:消息消費者,支持分布式集群方式部署。

  • NameServer:名字服務(wù),是一個非常簡單的 Topic 路由注冊中心,支持 Broker 的動態(tài)注冊與發(fā)現(xiàn),Producer 和 Consumer 通過 NameServer 動態(tài)感知 Broker 的路由信息。

  • Broker:Broker 主要負(fù)責(zé)消息的存儲、轉(zhuǎn)發(fā)和查詢。


本文基于 Apache RocketMQ 4.9.1 版本剖析 Broker 中的消息存儲模塊是如何設(shè)計的。


二、存儲架構(gòu)


RocketMQ 的消息文件路徑如圖所示。


深入剖析?RocketMQ?源碼?-?消息存儲模塊


CommitLog

消息主體以及元數(shù)據(jù)的存儲主體,存儲 Producer 端寫入的消息主體內(nèi)容,消息內(nèi)容不是定長的。單個文件大小默認(rèn)1G, 文件名長度為 20 位,左邊補(bǔ)零,剩余為起始偏移量,比如 00000000000000000000 代表了第一個文件,起始偏移量為 0,文件大小為 1G=1073741824;當(dāng)?shù)谝粋€文件寫滿了,第二個文件為 00000000001073741824,起始偏移量為 1073741824,以此類推。


ConsumeQueue

消息消費隊列,Consumequeue 文件可以看成是基于 CommitLog 的索引文件。ConsumeQueue 文件采取定長設(shè)計,每一個條目共 20 個字節(jié),分別為 8 字節(jié)的 CommitLog 物理偏移量、4 字節(jié)的消息長度、8 字節(jié) tag hashcode,單個文件由 30W 個條目組成,可以像數(shù)組一樣隨機(jī)訪問每一個條目,每個 ConsumeQueue 文件大小約 5.72M。


IndexFile

索引文件,提供了一種可以通過 key 或時間區(qū)間來查詢消息的方法。單個 IndexFile 文件大小約為 400M,一個 IndexFile 可以保存 2000W 個索引,IndexFile 的底層存儲設(shè)計類似 JDK 的 HashMap 數(shù)據(jù)結(jié)構(gòu)。


其他文件:包括 config 文件夾,存放運行時配置信息;abort 文件,說明 Broker 是否正常關(guān)閉;checkpoint 文件,存儲 Commitlog、ConsumeQueue、Index 文件最后一次刷盤時間戳。這些不在本文討論的范圍。

同 Kafka 相比,Kafka 每個 Topic 的每個 partition 對應(yīng)一個文件,順序?qū)懭?,定時刷盤。但一旦單個 Broker 的 Topic 過多,順序?qū)憣⑼嘶癁殡S機(jī)寫。而 RocketMQ 單個 Broker 所有 Topic 在同一個 CommitLog 中順序?qū)懀悄軌虮WC嚴(yán)格順序?qū)?。RocketMQ 讀取消息需要從 ConsumeQueue 中拿到消息實際物理偏移再去 CommitLog 讀取消息內(nèi)容,會造成隨機(jī)讀取。


2.1 Page Cache 和 mmap


在正式介紹 Broker 消息存儲模塊實現(xiàn)前,先說明下 Page Cache 和 mmap 這兩個概念。


Page Cache 是 OS 對文件的緩存,用于加速對文件的讀寫。一般來說,程序?qū)ξ募M(jìn)行順序讀寫的速度幾乎接近于內(nèi)存的讀寫速度,主要原因就是由于 OS 使用 Page Cache 機(jī)制對讀寫訪問操作進(jìn)行了性能優(yōu)化,將一部分的內(nèi)存用作 Page Cache。對于數(shù)據(jù)的寫入,OS 會先寫入至 Cache 內(nèi),隨后通過異步的方式由 pdflush 內(nèi)核線程將 Cache 內(nèi)的數(shù)據(jù)刷盤至物理磁盤上。對于數(shù)據(jù)的讀取,如果一次讀取文件時出現(xiàn)未命中 Page Cache 的情況,OS 從物理磁盤上訪問讀取文件的同時,會順序?qū)ζ渌噜弶K的數(shù)據(jù)文件進(jìn)行預(yù)讀取。


mmap 是將磁盤上的物理文件直接映射到用戶態(tài)的內(nèi)存地址中,減少了傳統(tǒng) IO 將磁盤文件數(shù)據(jù)在操作系統(tǒng)內(nèi)核地址空間的緩沖區(qū)和用戶應(yīng)用程序地址空間的緩沖區(qū)之間來回進(jìn)行拷貝的性能開銷。Java NIO 中的 FileChannel 提供了 map()? 方法可以實現(xiàn) mmap。FileChannel (文件通道)和 mmap (內(nèi)存映射) 讀寫性能比較可以參照這篇文章。


2.2?Broker 模塊


下圖是 Broker 存儲架構(gòu)圖,展示了 Broker 模塊從收到消息到返回響應(yīng)業(yè)務(wù)流轉(zhuǎn)過程。


深入剖析?RocketMQ?源碼?-?消息存儲模塊


業(yè)務(wù)接入層:RocketMQ 基于 Netty 的 Reactor 多線程模型實現(xiàn)了底層通信。Reactor 主線程池 eventLoopGroupBoss 負(fù)責(zé)創(chuàng)建 TCP 連接,默認(rèn)只有一個線程。連接建立后,再丟給 Reactor 子線程池 eventLoopGroupSelector 進(jìn)行讀寫事件的處理。


defaultEventExecutorGroup 負(fù)責(zé) SSL 驗證、編解碼、空閑檢查、網(wǎng)絡(luò)連接管理。然后根據(jù) RomotingCommand 的業(yè)務(wù)請求碼 code 去 processorTable 這個本地緩存變量中找到對應(yīng)的 processor,封裝成 task 任務(wù)后,提交給對應(yīng)的業(yè)務(wù) processor 處理線程池來執(zhí)行。Broker 模塊通過這四級線程池提升系統(tǒng)吞吐量。


業(yè)務(wù)處理層:處理各種通過 RPC 調(diào)用過來的業(yè)務(wù)請求,其中:


  • SendMessageProcessor 負(fù)責(zé)處理 Producer 發(fā)送消息的請求;

  • PullMessageProcessor 負(fù)責(zé)處理 Consumer 消費消息的請求;

  • QueryMessageProcessor 負(fù)責(zé)處理按照消息 Key 等查詢消息的請求。


存儲邏輯層:DefaultMessageStore 是 RocketMQ 的存儲邏輯核心類,提供消息存儲、讀取、刪除等能力。


文件映射層:把 Commitlog、ConsumeQueue、IndexFile 文件映射為存儲對象 MappedFile。


數(shù)據(jù)傳輸層:支持基于 mmap 內(nèi)存映射進(jìn)行讀寫消息,同時也支持基于 mmap 進(jìn)行讀取消息、堆外內(nèi)存寫入消息的方式進(jìn)行讀寫消息。


下面章節(jié)將從源碼角度來剖析 RocketMQ 是如何實現(xiàn)高性能存儲。


三、消息寫入


以單個消息生產(chǎn)為例,消息寫入時序邏輯如下圖,業(yè)務(wù)邏輯如上文 Broker 存儲架構(gòu)所示在各層之間進(jìn)行流轉(zhuǎn)。


深入剖析?RocketMQ?源碼?-?消息存儲模塊


最底層消息寫入核心代碼在 CommitLog 的 asyncPutMessage 方法中,主要分為獲取 MappedFile、往緩沖區(qū)寫消息、提交刷盤請求三步。需要注意的是在這三步前后有自旋鎖或 ReentrantLock 的加鎖、釋放鎖,保證單個 Broker 寫消息是串行的。

//org.apache.rocketmq.store.CommitLog::asyncPutMessagepublic CompletableFuture asyncPutMessage(final MessageExtBrokerInner msg) { ... putMessageLock.lock(); //spin or ReentrantLock ,depending on store config try { //獲取最新的 MappedFile MappedFile mappedFile = this.mappedFileQueue.getLastMappedFile(); ... //向緩沖區(qū)寫消息 result = mappedFile.appendMessage(msg, this.appendMessageCallback, putMessageContext); ... //提交刷盤請求 CompletableFuture flushResultFuture = submitFlushRequest(result, msg); ... } finally { putMessageLock.unlock(); } ... }

下面介紹這三步具體做了什么事情。


3.1?MappedFile 初始化


在 Broker 初始化時會啟動管理 MappedFile 創(chuàng)建的 AllocateMappedFileService 異步線程。消息處理線程 和 AllocateMappedFileService 線程通過隊列 requestQueue 關(guān)聯(lián)。


消息寫入時調(diào)用 AllocateMappedFileService 的 putRequestAndReturnMappedFile 方法往 requestQueue 放入提交創(chuàng)建 MappedFile 請求,這邊會同時構(gòu)建兩個 AllocateRequest 放入隊列。


AllocateMappedFileService 線程循環(huán)從 requestQueue 獲取 AllocateRequest 來創(chuàng)建 MappedFile。消息處理線程通過 CountDownLatch 等待獲取第一個 MappedFile 創(chuàng)建成功就返回。


當(dāng)消息處理線程需要再次創(chuàng)建 MappedFile 時,此時可以直接獲取之前已預(yù)創(chuàng)建的 MappedFile。這樣通過預(yù)創(chuàng)建 MappedFile ,減少文件創(chuàng)建等待時間。

//org.apache.rocketmq.store.AllocateMappedFileService::putRequestAndReturnMappedFilepublic MappedFile putRequestAndReturnMappedFile(String nextFilePath, String nextNextFilePath, int fileSize) { //請求創(chuàng)建 MappedFile AllocateRequest nextReq = new AllocateRequest(nextFilePath, fileSize); boolean nextPutOK = this.requestTable.putIfAbsent(nextFilePath, nextReq) == null; ... //請求預(yù)先創(chuàng)建下一個 MappedFile AllocateRequest nextNextReq = new AllocateRequest(nextNextFilePath, fileSize); boolean nextNextPutOK = this.requestTable.putIfAbsent(nextNextFilePath, nextNextReq) == null; ... //獲取本次創(chuàng)建 MappedFile AllocateRequest result = this.requestTable.get(nextFilePath); ...} //org.apache.rocketmq.store.AllocateMappedFileService::runpublic void run() { .. while (!this.isStopped()
本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險,如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點: 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團(tuán))股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉