當(dāng)前位置:首頁(yè) > 公眾號(hào)精選 > 架構(gòu)師社區(qū)
[導(dǎo)讀]作者:vivo互聯(lián)網(wǎng)服務(wù)器團(tuán)隊(duì)-ZhangZhenglin一、簡(jiǎn)介RocketMQ是阿里巴巴開(kāi)源的分布式消息中間件,它借鑒了Kafka實(shí)現(xiàn),支持消息訂閱與發(fā)布、順序消息、事務(wù)消息、定時(shí)消息、消息回溯、死信隊(duì)列等功能。RocketMQ架構(gòu)上主要分為四部分,如下圖所示:Produce...

ckquote class="js_blockquote_wrap" data-type="2" data-url="" data-author-name="" data-content-utf8-length="31" data-source-title="">作者:vivo互聯(lián)網(wǎng)服務(wù)器團(tuán)隊(duì)-Zhang Zhenglin

一、簡(jiǎn)介


RocketMQ 是阿里巴巴開(kāi)源的分布式消息中間件,它借鑒了 Kafka 實(shí)現(xiàn),支持消息訂閱與發(fā)布、順序消息、事務(wù)消息、定時(shí)消息、消息回溯、死信隊(duì)列等功能。RocketMQ 架構(gòu)上主要分為四部分,如下圖所示:


深入剖析?RocketMQ?源碼?-?消息存儲(chǔ)模塊


  • Producer:消息生產(chǎn)者,支持分布式集群方式部署。

  • Consumer:消息消費(fèi)者,支持分布式集群方式部署。

  • NameServer:名字服務(wù),是一個(gè)非常簡(jiǎn)單的 Topic 路由注冊(cè)中心,支持 Broker 的動(dòng)態(tài)注冊(cè)與發(fā)現(xiàn),Producer 和 Consumer 通過(guò) NameServer 動(dòng)態(tài)感知 Broker 的路由信息。

  • Broker:Broker 主要負(fù)責(zé)消息的存儲(chǔ)、轉(zhuǎn)發(fā)和查詢。


本文基于 Apache RocketMQ 4.9.1 版本剖析 Broker 中的消息存儲(chǔ)模塊是如何設(shè)計(jì)的。


二、存儲(chǔ)架構(gòu)


RocketMQ 的消息文件路徑如圖所示。


深入剖析?RocketMQ?源碼?-?消息存儲(chǔ)模塊


CommitLog

消息主體以及元數(shù)據(jù)的存儲(chǔ)主體,存儲(chǔ) Producer 端寫(xiě)入的消息主體內(nèi)容,消息內(nèi)容不是定長(zhǎng)的。單個(gè)文件大小默認(rèn)1G, 文件名長(zhǎng)度為 20 位,左邊補(bǔ)零,剩余為起始偏移量,比如 00000000000000000000 代表了第一個(gè)文件,起始偏移量為 0,文件大小為 1G=1073741824;當(dāng)?shù)谝粋€(gè)文件寫(xiě)滿了,第二個(gè)文件為 00000000001073741824,起始偏移量為 1073741824,以此類推。


ConsumeQueue

消息消費(fèi)隊(duì)列,Consumequeue 文件可以看成是基于 CommitLog 的索引文件。ConsumeQueue 文件采取定長(zhǎng)設(shè)計(jì),每一個(gè)條目共 20 個(gè)字節(jié),分別為 8 字節(jié)的 CommitLog 物理偏移量、4 字節(jié)的消息長(zhǎng)度、8 字節(jié) tag hashcode,單個(gè)文件由 30W 個(gè)條目組成,可以像數(shù)組一樣隨機(jī)訪問(wèn)每一個(gè)條目,每個(gè) ConsumeQueue 文件大小約 5.72M。


IndexFile

索引文件,提供了一種可以通過(guò) key 或時(shí)間區(qū)間來(lái)查詢消息的方法。單個(gè) IndexFile 文件大小約為 400M,一個(gè) IndexFile 可以保存 2000W 個(gè)索引,IndexFile 的底層存儲(chǔ)設(shè)計(jì)類似 JDK 的 HashMap 數(shù)據(jù)結(jié)構(gòu)。


其他文件:包括 config 文件夾,存放運(yùn)行時(shí)配置信息;abort 文件,說(shuō)明 Broker 是否正常關(guān)閉;checkpoint 文件,存儲(chǔ) Commitlog、ConsumeQueue、Index 文件最后一次刷盤時(shí)間戳。這些不在本文討論的范圍。

同 Kafka 相比,Kafka 每個(gè) Topic 的每個(gè) partition 對(duì)應(yīng)一個(gè)文件,順序?qū)懭耄〞r(shí)刷盤。但一旦單個(gè) Broker 的 Topic 過(guò)多,順序?qū)憣⑼嘶癁殡S機(jī)寫(xiě)。而 RocketMQ 單個(gè) Broker 所有 Topic 在同一個(gè) CommitLog 中順序?qū)?,是能夠保證嚴(yán)格順序?qū)憽ocketMQ 讀取消息需要從 ConsumeQueue 中拿到消息實(shí)際物理偏移再去 CommitLog 讀取消息內(nèi)容,會(huì)造成隨機(jī)讀取。


2.1 Page Cache 和 mmap


在正式介紹 Broker 消息存儲(chǔ)模塊實(shí)現(xiàn)前,先說(shuō)明下 Page Cache 和 mmap 這兩個(gè)概念。


Page Cache 是 OS 對(duì)文件的緩存,用于加速對(duì)文件的讀寫(xiě)。一般來(lái)說(shuō),程序?qū)ξ募M(jìn)行順序讀寫(xiě)的速度幾乎接近于內(nèi)存的讀寫(xiě)速度,主要原因就是由于 OS 使用 Page Cache 機(jī)制對(duì)讀寫(xiě)訪問(wèn)操作進(jìn)行了性能優(yōu)化,將一部分的內(nèi)存用作 Page Cache。對(duì)于數(shù)據(jù)的寫(xiě)入,OS 會(huì)先寫(xiě)入至 Cache 內(nèi),隨后通過(guò)異步的方式由 pdflush 內(nèi)核線程將 Cache 內(nèi)的數(shù)據(jù)刷盤至物理磁盤上。對(duì)于數(shù)據(jù)的讀取,如果一次讀取文件時(shí)出現(xiàn)未命中 Page Cache 的情況,OS 從物理磁盤上訪問(wèn)讀取文件的同時(shí),會(huì)順序?qū)ζ渌噜弶K的數(shù)據(jù)文件進(jìn)行預(yù)讀取。


mmap 是將磁盤上的物理文件直接映射到用戶態(tài)的內(nèi)存地址中,減少了傳統(tǒng) IO 將磁盤文件數(shù)據(jù)在操作系統(tǒng)內(nèi)核地址空間的緩沖區(qū)和用戶應(yīng)用程序地址空間的緩沖區(qū)之間來(lái)回進(jìn)行拷貝的性能開(kāi)銷。Java NIO 中的 FileChannel 提供了 map()? 方法可以實(shí)現(xiàn) mmap。FileChannel (文件通道)和 mmap (內(nèi)存映射) 讀寫(xiě)性能比較可以參照這篇文章。


2.2?Broker 模塊


下圖是 Broker 存儲(chǔ)架構(gòu)圖,展示了 Broker 模塊從收到消息到返回響應(yīng)業(yè)務(wù)流轉(zhuǎn)過(guò)程。


深入剖析?RocketMQ?源碼?-?消息存儲(chǔ)模塊


業(yè)務(wù)接入層:RocketMQ 基于 Netty 的 Reactor 多線程模型實(shí)現(xiàn)了底層通信。Reactor 主線程池 eventLoopGroupBoss 負(fù)責(zé)創(chuàng)建 TCP 連接,默認(rèn)只有一個(gè)線程。連接建立后,再丟給 Reactor 子線程池 eventLoopGroupSelector 進(jìn)行讀寫(xiě)事件的處理。


defaultEventExecutorGroup 負(fù)責(zé) SSL 驗(yàn)證、編解碼、空閑檢查、網(wǎng)絡(luò)連接管理。然后根據(jù) RomotingCommand 的業(yè)務(wù)請(qǐng)求碼 code 去 processorTable 這個(gè)本地緩存變量中找到對(duì)應(yīng)的 processor,封裝成 task 任務(wù)后,提交給對(duì)應(yīng)的業(yè)務(wù) processor 處理線程池來(lái)執(zhí)行。Broker 模塊通過(guò)這四級(jí)線程池提升系統(tǒng)吞吐量。


業(yè)務(wù)處理層:處理各種通過(guò) RPC 調(diào)用過(guò)來(lái)的業(yè)務(wù)請(qǐng)求,其中:


  • SendMessageProcessor 負(fù)責(zé)處理 Producer 發(fā)送消息的請(qǐng)求;

  • PullMessageProcessor 負(fù)責(zé)處理 Consumer 消費(fèi)消息的請(qǐng)求;

  • QueryMessageProcessor 負(fù)責(zé)處理按照消息 Key 等查詢消息的請(qǐng)求。


存儲(chǔ)邏輯層:DefaultMessageStore 是 RocketMQ 的存儲(chǔ)邏輯核心類,提供消息存儲(chǔ)、讀取、刪除等能力。


文件映射層:把 Commitlog、ConsumeQueue、IndexFile 文件映射為存儲(chǔ)對(duì)象 MappedFile。


數(shù)據(jù)傳輸層:支持基于 mmap 內(nèi)存映射進(jìn)行讀寫(xiě)消息,同時(shí)也支持基于 mmap 進(jìn)行讀取消息、堆外內(nèi)存寫(xiě)入消息的方式進(jìn)行讀寫(xiě)消息。


下面章節(jié)將從源碼角度來(lái)剖析 RocketMQ 是如何實(shí)現(xiàn)高性能存儲(chǔ)。


三、消息寫(xiě)入


以單個(gè)消息生產(chǎn)為例,消息寫(xiě)入時(shí)序邏輯如下圖,業(yè)務(wù)邏輯如上文 Broker 存儲(chǔ)架構(gòu)所示在各層之間進(jìn)行流轉(zhuǎn)。


深入剖析?RocketMQ?源碼?-?消息存儲(chǔ)模塊


最底層消息寫(xiě)入核心代碼在 CommitLog 的 asyncPutMessage 方法中,主要分為獲取 MappedFile、往緩沖區(qū)寫(xiě)消息、提交刷盤請(qǐng)求三步。需要注意的是在這三步前后有自旋鎖或 ReentrantLock 的加鎖、釋放鎖,保證單個(gè) Broker 寫(xiě)消息是串行的。

//org.apache.rocketmq.store.CommitLog::asyncPutMessagepublic CompletableFuture asyncPutMessage(final MessageExtBrokerInner msg) { ... putMessageLock.lock(); //spin or ReentrantLock ,depending on store config try { //獲取最新的 MappedFile MappedFile mappedFile = this.mappedFileQueue.getLastMappedFile(); ... //向緩沖區(qū)寫(xiě)消息 result = mappedFile.appendMessage(msg, this.appendMessageCallback, putMessageContext); ... //提交刷盤請(qǐng)求 CompletableFuture flushResultFuture = submitFlushRequest(result, msg); ... } finally { putMessageLock.unlock(); } ... }

下面介紹這三步具體做了什么事情。


3.1?MappedFile 初始化


在 Broker 初始化時(shí)會(huì)啟動(dòng)管理 MappedFile 創(chuàng)建的 AllocateMappedFileService 異步線程。消息處理線程 和 AllocateMappedFileService 線程通過(guò)隊(duì)列 requestQueue 關(guān)聯(lián)。


消息寫(xiě)入時(shí)調(diào)用 AllocateMappedFileService 的 putRequestAndReturnMappedFile 方法往 requestQueue 放入提交創(chuàng)建 MappedFile 請(qǐng)求,這邊會(huì)同時(shí)構(gòu)建兩個(gè) AllocateRequest 放入隊(duì)列。


AllocateMappedFileService 線程循環(huán)從 requestQueue 獲取 AllocateRequest 來(lái)創(chuàng)建 MappedFile。消息處理線程通過(guò) CountDownLatch 等待獲取第一個(gè) MappedFile 創(chuàng)建成功就返回。


當(dāng)消息處理線程需要再次創(chuàng)建 MappedFile 時(shí),此時(shí)可以直接獲取之前已預(yù)創(chuàng)建的 MappedFile。這樣通過(guò)預(yù)創(chuàng)建 MappedFile ,減少文件創(chuàng)建等待時(shí)間。

//org.apache.rocketmq.store.AllocateMappedFileService::putRequestAndReturnMappedFilepublic MappedFile putRequestAndReturnMappedFile(String nextFilePath, String nextNextFilePath, int fileSize) { //請(qǐng)求創(chuàng)建 MappedFile AllocateRequest nextReq = new AllocateRequest(nextFilePath, fileSize); boolean nextPutOK = this.requestTable.putIfAbsent(nextFilePath, nextReq) == null; ... //請(qǐng)求預(yù)先創(chuàng)建下一個(gè) MappedFile AllocateRequest nextNextReq = new AllocateRequest(nextNextFilePath, fileSize); boolean nextNextPutOK = this.requestTable.putIfAbsent(nextNextFilePath, nextNextReq) == null; ... //獲取本次創(chuàng)建 MappedFile AllocateRequest result = this.requestTable.get(nextFilePath); ...} //org.apache.rocketmq.store.AllocateMappedFileService::runpublic void run() { .. while (!this.isStopped()
本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開(kāi)發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來(lái)越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來(lái)越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開(kāi)幕式在貴陽(yáng)舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語(yǔ)權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競(jìng)爭(zhēng)力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營(yíng)商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡(jiǎn)稱"軟通動(dòng)力")與長(zhǎng)三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉