kafka入門指南
kafka是一個分布式的流式平臺,它到底是什么意思?
流式平臺有以下三個主要的功能:
☆發(fā)布和訂閱流記錄,類似消息隊(duì)列或企業(yè)級的消息系統(tǒng)。
☆你以一種容錯的方式存儲流記錄。
☆當(dāng)流記錄產(chǎn)生時(shí)及時(shí)處理。
kafka被用于兩大類別的應(yīng)用程序:
☆建立實(shí)時(shí)的流式數(shù)據(jù)通道,這個通道能可靠的獲取到在系統(tǒng)或應(yīng)用間的數(shù)據(jù)
☆建立實(shí)時(shí)流媒體應(yīng)用來轉(zhuǎn)換流數(shù)據(jù)或?qū)α鲾?shù)據(jù)做出反應(yīng)。
為了明白kafka能怎么做這些事情,讓我們從下面開始深入探索kafka的功能:
首先看這幾個概念:
☆kafka作為集群運(yùn)行在一個或多個服務(wù)器,跨越多個數(shù)據(jù)中心。
☆kafka集群存儲的流記錄以主題進(jìn)行分類。
☆每條記錄包含一個鍵,一個值和一個時(shí)間戳。
kafka有四種核心的API:
☆生產(chǎn)者API允許一個應(yīng)用去發(fā)布一個流記錄到一個或多個kafka主題上。
☆消費(fèi)者API允許一個應(yīng)用去訂閱一個或多個主題,并處理流記錄。
☆Streams API允許應(yīng)用作為一個流處理器,消費(fèi)一個來至于一個或多個主題的輸入流;生產(chǎn)一個輸出流到一個或多個輸出主題,有效地將輸入流轉(zhuǎn)換為輸出流。
☆Connector?API允許構(gòu)建并運(yùn)行可重用的生產(chǎn)者或消費(fèi)者,它們連接kafka主題到已存在的應(yīng)用或數(shù)據(jù)系統(tǒng)。例如,關(guān)系數(shù)據(jù)庫的連接器(Connector)可以捕獲表的每一個變化。
kafka客戶端和kafka服務(wù)器之間的通信是通過一種簡單的,高性能的,語言無關(guān)的TCP協(xié)議完成的。該協(xié)議是版本控制的,并保持與舊版本的向后兼容性。我們?yōu)閗afka提供一個java版本的客戶端,其實(shí)客戶端可以用其他多種語來實(shí)現(xiàn)。
主題和日志
? ? 首先深入kafka為流記錄提供的核心概念—主題。
? ? 主題就是給發(fā)布的記錄歸類或命名。kafka中的主題總是有多個訂閱者。也就是說,一個主題可以有零個、一個或多個消費(fèi)者去訂閱這個主題里面的數(shù)據(jù)。
? ? 針對每一個主題,kafka集群維護(hù)一個像下面這樣的分區(qū)日志:
? ? 每個分區(qū)是一個有序,不變的記錄序列,被不斷追加到結(jié)構(gòu)化的日志中。分區(qū)的記錄都分配了一個連續(xù)的id號,稱為偏移量,偏移量用于唯一標(biāo)識分區(qū)內(nèi)的每一條記錄。
kafka集群使用一個可配置的保存期來持久保留所有已發(fā)布的記錄,不論它們是否已經(jīng)被消費(fèi)掉。例如,如果保存策略設(shè)置為兩天,然后記錄發(fā)布后的兩天內(nèi),這個記錄可以消費(fèi),之后,它將被丟棄來釋放空間。不管數(shù)據(jù)量的大小,kafka都能保持穩(wěn)定的性能,所以長時(shí)間存儲數(shù)據(jù)不是問題。
? ? 事實(shí)上,保留在每個消費(fèi)者基礎(chǔ)上的唯一元數(shù)據(jù)是消費(fèi)者在日志中的偏移量和位置。偏移量由消費(fèi)者控制:通常當(dāng)消費(fèi)者讀取一個記錄后會線性的增加偏移量。但實(shí)際上,由于位置由消費(fèi)者控制,消費(fèi)者可以按任何順序消費(fèi)記錄。例如,消費(fèi)者可以重置偏移量以重新處理之前的數(shù)據(jù),或者跳至最近的記錄并從"now"開始消費(fèi)。
? ? 這些特性味著kafka消費(fèi)者們是很靈活的—它們能夠加入或者離開而不會影響集群或者其他消費(fèi)者。例如,你可以使用我們的命令行工具去追蹤任何主題的內(nèi)容,而不影響現(xiàn)有消費(fèi)者的消費(fèi)。
? ? 日志中的分區(qū)有多種用途。首先,分區(qū)允許日志的大小可以超過服務(wù)器單機(jī)的限制。每個單獨(dú)的分區(qū)必須適合承載它的服務(wù)器,但是一個主題可能有很多分區(qū),因此它可以處理任意數(shù)量的數(shù)據(jù)。其次,各個分區(qū)是并行單元—更多是為了實(shí)現(xiàn)這一點(diǎn)。
分布式
? ? 日志的分區(qū)分布在Kafka集群中的服務(wù)器上,每個服務(wù)器處理數(shù)據(jù)并請求共享分區(qū)。每個分區(qū)都通過可配置數(shù)量的服務(wù)器進(jìn)行復(fù)制以實(shí)現(xiàn)容錯。
? ? 每個分區(qū)都有一個服務(wù)器充當(dāng)“領(lǐng)導(dǎo)者(leader)”,零個或多個服務(wù)器充當(dāng)“追隨者(follower)”。leader處理分區(qū)所有讀寫請求,時(shí)followers被動的復(fù)制這個leader。如果leader出現(xiàn)故障,其中一個follower自動成為新的leader。每個服務(wù)器都充當(dāng)其中一些分區(qū)的leader和其分區(qū)的follower,因此集群內(nèi)的負(fù)載均衡很好。
地理復(fù)制
? ? Kafka MirrorMaker為您的群集提供地理復(fù)制支持。借助MirrorMaker,消息可以跨多個數(shù)據(jù)中心或云區(qū)域進(jìn)行復(fù)制。 您可以在主動/被動場景中將其用于備份和恢復(fù);或者在主動/主動方案中將數(shù)據(jù)放置得更靠近用戶,或者支持?jǐn)?shù)據(jù)本地化要求。
生產(chǎn)者
? ? 生產(chǎn)者將數(shù)據(jù)發(fā)布到他們選擇的主題。生產(chǎn)者負(fù)責(zé)選擇將哪個記錄分配給主題中的哪個分區(qū)。這可以以循環(huán)方式完成,只是為了均衡負(fù)載,或者可以根據(jù)某種語義分區(qū)功能(例如基于記錄中的某個鍵)完成。
消費(fèi)者
? ? 消費(fèi)者用消費(fèi)組(consumer group)名稱標(biāo)記自己,并且發(fā)布到主題的每條記錄都被傳送到每個訂閱消費(fèi)組中的一個消費(fèi)者實(shí)例。消費(fèi)者實(shí)例可以在單獨(dú)的進(jìn)程中或在單獨(dú)的機(jī)器上。
? ? 如果所有消費(fèi)者實(shí)例具有相同的消費(fèi)組,則記錄將有效地在消費(fèi)者實(shí)例上進(jìn)行負(fù)載均衡。
? ? 如果所有消費(fèi)者實(shí)例具有不同的消費(fèi)組,則每條記錄都將廣播給所有消費(fèi)者進(jìn)程。
? ? 兩個服務(wù)器Kafka集群托管四個分區(qū)(P0-P3)和兩個消費(fèi)組。消費(fèi)組A有兩個消費(fèi)者實(shí)例,而消費(fèi)組組B有四個消費(fèi)者實(shí)例。
? ? 然而,更常見的是,我們發(fā)現(xiàn)主題的消費(fèi)組很少,每個“邏輯訂閱者”都有一個。每個消費(fèi)組組由許多消費(fèi)者實(shí)例組成,具有可擴(kuò)展性和容錯性。這只不過是發(fā)布—訂閱語義,其中訂閱者是一群消費(fèi)者而不是一個進(jìn)程。
? ? 在Kafka中實(shí)現(xiàn)消費(fèi)的方式是將日志中的分區(qū)分配給消費(fèi)者實(shí)例,以便每個實(shí)例在任何時(shí)間點(diǎn)都是“公平分享”分區(qū)的獨(dú)占消費(fèi)者。維護(hù)組中成員的過程是由Kafka協(xié)議動態(tài)處理的。如果新實(shí)例加入該組,則它們將接管來自該組的其他成員的一些分區(qū);如果一個實(shí)例死亡,其分區(qū)將分配給其余實(shí)例。
? ? Kafka只提供一個分區(qū)內(nèi)記錄的總順序,而不是主題中不同分區(qū)之間的順序。按分區(qū)排序與按鍵分區(qū)數(shù)據(jù)的能力相結(jié)合,足以滿足大多數(shù)應(yīng)用程序的需求。但是,如果您需要全部記錄的總順序,則可以通過僅有一個分區(qū)的主題來實(shí)現(xiàn),但這意味著每個消費(fèi)組只有一個消費(fèi)者進(jìn)程。
多租戶
? ? 您可以將Kafka部署為多租戶解決方案。通過配置哪些主題可以產(chǎn)生或消費(fèi)數(shù)據(jù)來啟用多租戶。還有配額操作支持。 管理員可以根據(jù)請求定義和執(zhí)行配額以控制客戶端使用的代理資源。有關(guān)更多信息,請參閱security documentation。
保證
kafka的高級API提供以下保證:
☆消息被生產(chǎn)者發(fā)送到一個特定的主題分區(qū),消息將以發(fā)送的順序追加到這個分區(qū)。比如,如果M1和M2消息都被同一個生產(chǎn)者發(fā)送,M1先發(fā)送,M1的偏移量將比M2的小且更早出現(xiàn)在日志里。
☆消費(fèi)者實(shí)例按照它們存儲在日志中的順序查看記錄。
☆如果一個主題的副本數(shù)是N,我們可以容忍N(yùn)-1個服務(wù)器發(fā)生故障而不會丟失任何提交到日志中的記錄。
關(guān)于保證的更多的細(xì)節(jié)將在文檔的設(shè)計(jì)章節(jié)被給出來。
Kafka作為消息系統(tǒng)
? ? Kafka的流概念如何與傳統(tǒng)的企業(yè)消息系統(tǒng)相比較?
? ? 消息處理歷來有兩種模式:隊(duì)列和發(fā)布-訂閱。在隊(duì)列中,消費(fèi)者池(pool)可以從服務(wù)器讀取,并且每條記錄都會轉(zhuǎn)到其中的一個消費(fèi)者;在發(fā)布-訂閱中,記錄被廣播給所有消費(fèi)者。這兩種模式都有優(yōu)勢和劣勢。隊(duì)列的優(yōu)勢在于它允許您將數(shù)據(jù)分配到多個消費(fèi)者處理,從而擴(kuò)展您的處理。不幸的是,隊(duì)列不支持多個訂閱者—一旦一個進(jìn)程讀取數(shù)據(jù),其他進(jìn)程就不能訪問了。發(fā)布-訂閱允許您將數(shù)據(jù)廣播到多個進(jìn)程,但無法進(jìn)行擴(kuò)展處理,因?yàn)槊織l消息都發(fā)送給每個訂閱者。
? ? Kafka的消費(fèi)組歸納了這兩個概念。與隊(duì)列一樣,消費(fèi)組允許您將處理流程分配到多個進(jìn)程(消費(fèi)者組成員)。與發(fā)布-訂閱一樣,Kafka允許您向多個消費(fèi)組廣播消息。
? ? Kafka模式的優(yōu)點(diǎn)是每個主題都有這些屬性—它可以擴(kuò)展處理,也可以支持多個訂閱者—沒有必要再二選一了。
? ? Kafka也比傳統(tǒng)的消息系統(tǒng)有更強(qiáng)大的順序保證能力。
? ? 傳統(tǒng)的隊(duì)列在服務(wù)器上按順序保存記錄,如果多個消費(fèi)者從隊(duì)列中消費(fèi),則服務(wù)器按它們存儲的順序派發(fā)記錄。但是,盡管服務(wù)器按順序派發(fā)記錄,但是記錄是異步傳遞給消費(fèi)者的,它們到達(dá)不同的消費(fèi)者時(shí)可能已經(jīng)亂序了。這實(shí)際上意味著在并行消費(fèi)的情況下記錄的順序會丟失。消息系統(tǒng)通常具有“排他消費(fèi)者”的概念,只允許一個進(jìn)程從隊(duì)列中消耗,但這當(dāng)然意味沒有并行處理能力。
? ? Kafka做得更好。通過主題內(nèi)的分區(qū)來實(shí)現(xiàn)并行,Kafka能夠在消費(fèi)者進(jìn)程池中提供順序保證和負(fù)載均衡。這是通過將主題中的分區(qū)分配給消費(fèi)組中的消費(fèi)者來實(shí)現(xiàn)的,以便每個分區(qū)僅由組中的一個消費(fèi)者使用。通過這樣做,我們確保消費(fèi)者是該分區(qū)的唯一讀者,并按順序使用數(shù)據(jù)。由于有很多分區(qū),這仍然可以平衡許多消費(fèi)者實(shí)例的負(fù)載。但請注意,消費(fèi)者組中的消費(fèi)者實(shí)例不能多于分區(qū)。
Kafka作為存儲系統(tǒng)
? ? 任何消息隊(duì)列都能夠解耦消息的生產(chǎn)和消費(fèi),還能夠有效的存儲正在傳送的消息。Kafka的不同之處在于它是一個非常好的存儲系統(tǒng)。
? ? Kafka將數(shù)據(jù)寫入磁盤并進(jìn)行復(fù)制以實(shí)現(xiàn)容錯。Kafka允許生產(chǎn)者等待確認(rèn),直到副本復(fù)制和持久化全部完成才認(rèn)為寫入成功。
? ? Kafka使用的磁盤結(jié)構(gòu)很好擴(kuò)展—無論您在服務(wù)器上有50KB還是50TB的持久化數(shù)據(jù),Kafka都會執(zhí)行相同的操作策略。
? ? 由于存儲的重要性,并允許客戶控制自己的讀取位置,您可以將Kafka視為一種專用的分布式文件系統(tǒng),致力于高性能,低延遲,有保障的日志存儲,能夠備份和自我復(fù)制。
? ? 有關(guān)Kafk日志存儲和復(fù)制設(shè)計(jì)的詳細(xì)信息,請閱讀本頁。
Kafka流處理
? ? 僅讀取,寫入和存儲數(shù)據(jù)流是不夠的,目的是實(shí)時(shí)處理數(shù)據(jù)流。
? ? 在Kafka中,流處理器是指從輸入主題獲取連續(xù)數(shù)據(jù)流,對該輸入執(zhí)行一些處理并生成連續(xù)數(shù)據(jù)流到輸出主題。
? ? 例如,零售應(yīng)用程序可能會接受銷售和裝運(yùn)的輸入流,并輸出一系列重新排序和根據(jù)此數(shù)據(jù)計(jì)算出的價(jià)格調(diào)整。
? ? 可以直接使用生產(chǎn)者API和消費(fèi)者API進(jìn)行簡單的處理。然而,對于更復(fù)雜的轉(zhuǎn)換,Kafka提供了完全集成的Streams API。這允許構(gòu)建應(yīng)用程序進(jìn)行非凡的處理,將計(jì)算從流中剝離或加入流一起。
? ? 這個工具有助于解決這類應(yīng)用程序面臨的難題:處理亂序數(shù)據(jù),重新處理代碼更改的輸入,執(zhí)行有狀態(tài)的計(jì)算等。
? ? Streams API基于Kafka提供的核心原語構(gòu)建:它使用生產(chǎn)者API和消費(fèi)者API輸入,使用Kafka進(jìn)行有狀態(tài)存儲,并在流處理器實(shí)例之間使用相同的組機(jī)制來實(shí)現(xiàn)容錯。
把功能結(jié)合起來
? ??消息傳遞,存儲和流處理的這種組合可能看起來很不尋常,但對于Kafka作為流式傳輸平臺的角色來說,這是非常重要的。
? ? 像HDFS這樣的分布式文件系統(tǒng)允許存儲用于批處理的靜態(tài)文件。這樣的系統(tǒng)允許存儲和處理過去的歷史數(shù)據(jù)。
? ? 傳統(tǒng)的企業(yè)消息系統(tǒng)允許處理訂閱后才抵達(dá)的消息。以這種方式構(gòu)建的應(yīng)用程序處理將來的數(shù)據(jù)。
? ? Kafka結(jié)合了這兩種功能,而且這兩種組合對于Kafka用作流式傳輸應(yīng)用平臺和流式數(shù)據(jù)管道都非常重要。
? ? 通過將存儲和低延遲訂閱相結(jié)合,流式應(yīng)用可以以相同的方式處理過去和未來的數(shù)據(jù)。也就是一個單一的應(yīng)用程序可以處理歷史的,存儲的數(shù)據(jù),而不是在它達(dá)到最后一個記錄時(shí)結(jié)束,它可以在將來的數(shù)據(jù)到達(dá)時(shí)繼續(xù)處理。這是流處理的一般概念,包括批處理以及消息驅(qū)動的應(yīng)用程序。
? ? 同樣,對于流式數(shù)據(jù)管道,結(jié)合訂閱實(shí)時(shí)事件,使得可以將Kafka用于非常低延遲的管道;可靠地存儲數(shù)據(jù)的能力可以將其用于必須保證數(shù)據(jù)交付的關(guān)鍵數(shù)據(jù),或者與只能定期加載數(shù)據(jù)的離線系統(tǒng)集成,或者可能在較長時(shí)間內(nèi)停機(jī)進(jìn)行維護(hù)。流處理設(shè)施可以在數(shù)據(jù)到達(dá)時(shí)進(jìn)行轉(zhuǎn)換。
? ? 有關(guān)Kafka提供的保證,API和功能的更多信息,請參閱其余文檔。