123,123,123

[導(dǎo)讀]kafka是一個分布式的流式平臺，它到底是什么意思？流式平臺有以下三個主要的功能：☆發(fā)布和訂閱流記錄，類似消息隊(duì)列或企業(yè)級的消息系統(tǒng)?！钅阋砸环N容錯的方式存儲流記錄?！町?dāng)流記錄產(chǎn)生時(shí)及時(shí)處理。kafk

kafka是一個分布式的流式平臺，它到底是什么意思？

流式平臺有以下三個主要的功能：
☆發(fā)布和訂閱流記錄，類似消息隊(duì)列或企業(yè)級的消息系統(tǒng)。
☆你以一種容錯的方式存儲流記錄。
☆當(dāng)流記錄產(chǎn)生時(shí)及時(shí)處理。

kafka被用于兩大類別的應(yīng)用程序:
☆建立實(shí)時(shí)的流式數(shù)據(jù)通道，這個通道能可靠的獲取到在系統(tǒng)或應(yīng)用間的數(shù)據(jù)
☆建立實(shí)時(shí)流媒體應(yīng)用來轉(zhuǎn)換流數(shù)據(jù)或?qū)α鲾?shù)據(jù)做出反應(yīng)。

為了明白kafka能怎么做這些事情，讓我們從下面開始深入探索kafka的功能：
首先看這幾個概念：
☆kafka作為集群運(yùn)行在一個或多個服務(wù)器，跨越多個數(shù)據(jù)中心。
☆kafka集群存儲的流記錄以主題進(jìn)行分類。
☆每條記錄包含一個鍵，一個值和一個時(shí)間戳。
kafka有四種核心的API:
☆生產(chǎn)者API允許一個應(yīng)用去發(fā)布一個流記錄到一個或多個kafka主題上。
☆消費(fèi)者API允許一個應(yīng)用去訂閱一個或多個主題，并處理流記錄。
☆Streams API允許應(yīng)用作為一個流處理器，消費(fèi)一個來至于一個或多個主題的輸入流；生產(chǎn)一個輸出流到一個或多個輸出主題，有效地將輸入流轉(zhuǎn)換為輸出流。
☆Connector?API允許構(gòu)建并運(yùn)行可重用的生產(chǎn)者或消費(fèi)者，它們連接kafka主題到已存在的應(yīng)用或數(shù)據(jù)系統(tǒng)。例如，關(guān)系數(shù)據(jù)庫的連接器(Connector)可以捕獲表的每一個變化。

　　kafka客戶端和kafka服務(wù)器之間的通信是通過一種簡單的,高性能的，語言無關(guān)的TCP協(xié)議完成的。該協(xié)議是版本控制的，并保持與舊版本的向后兼容性。我們?yōu)閗afka提供一個java版本的客戶端，其實(shí)客戶端可以用其他多種語來實(shí)現(xiàn)。

主題和日志
? ? 首先深入kafka為流記錄提供的核心概念—主題。

? ? 主題就是給發(fā)布的記錄歸類或命名。kafka中的主題總是有多個訂閱者。也就是說，一個主題可以有零個、一個或多個消費(fèi)者去訂閱這個主題里面的數(shù)據(jù)。
? ? 針對每一個主題，kafka集群維護(hù)一個像下面這樣的分區(qū)日志：

? ? 每個分區(qū)是一個有序,不變的記錄序列，被不斷追加到結(jié)構(gòu)化的日志中。分區(qū)的記錄都分配了一個連續(xù)的id號，稱為偏移量，偏移量用于唯一標(biāo)識分區(qū)內(nèi)的每一條記錄。

　　kafka集群使用一個可配置的保存期來持久保留所有已發(fā)布的記錄，不論它們是否已經(jīng)被消費(fèi)掉。例如，如果保存策略設(shè)置為兩天，然后記錄發(fā)布后的兩天內(nèi),這個記錄可以消費(fèi),之后,它將被丟棄來釋放空間。不管數(shù)據(jù)量的大小，kafka都能保持穩(wěn)定的性能，所以長時(shí)間存儲數(shù)據(jù)不是問題。

? ? 事實(shí)上，保留在每個消費(fèi)者基礎(chǔ)上的唯一元數(shù)據(jù)是消費(fèi)者在日志中的偏移量和位置。偏移量由消費(fèi)者控制：通常當(dāng)消費(fèi)者讀取一個記錄后會線性的增加偏移量。但實(shí)際上，由于位置由消費(fèi)者控制，消費(fèi)者可以按任何順序消費(fèi)記錄。例如，消費(fèi)者可以重置偏移量以重新處理之前的數(shù)據(jù)，或者跳至最近的記錄并從"now"開始消費(fèi)。
? ? 這些特性味著kafka消費(fèi)者們是很靈活的—它們能夠加入或者離開而不會影響集群或者其他消費(fèi)者。例如，你可以使用我們的命令行工具去追蹤任何主題的內(nèi)容，而不影響現(xiàn)有消費(fèi)者的消費(fèi)。
? ? 日志中的分區(qū)有多種用途。首先，分區(qū)允許日志的大小可以超過服務(wù)器單機(jī)的限制。每個單獨(dú)的分區(qū)必須適合承載它的服務(wù)器，但是一個主題可能有很多分區(qū)，因此它可以處理任意數(shù)量的數(shù)據(jù)。其次，各個分區(qū)是并行單元—更多是為了實(shí)現(xiàn)這一點(diǎn)。

分布式
? ? 日志的分區(qū)分布在Kafka集群中的服務(wù)器上，每個服務(wù)器處理數(shù)據(jù)并請求共享分區(qū)。每個分區(qū)都通過可配置數(shù)量的服務(wù)器進(jìn)行復(fù)制以實(shí)現(xiàn)容錯。
? ? 每個分區(qū)都有一個服務(wù)器充當(dāng)“領(lǐng)導(dǎo)者(leader)”，零個或多個服務(wù)器充當(dāng)“追隨者(follower)”。leader處理分區(qū)所有讀寫請求，時(shí)followers被動的復(fù)制這個leader。如果leader出現(xiàn)故障，其中一個follower自動成為新的leader。每個服務(wù)器都充當(dāng)其中一些分區(qū)的leader和其分區(qū)的follower，因此集群內(nèi)的負(fù)載均衡很好。

地理復(fù)制

? ? Kafka MirrorMaker為您的群集提供地理復(fù)制支持。借助MirrorMaker，消息可以跨多個數(shù)據(jù)中心或云區(qū)域進(jìn)行復(fù)制。您可以在主動/被動場景中將其用于備份和恢復(fù)；或者在主動/主動方案中將數(shù)據(jù)放置得更靠近用戶，或者支持?jǐn)?shù)據(jù)本地化要求。

生產(chǎn)者
? ? 生產(chǎn)者將數(shù)據(jù)發(fā)布到他們選擇的主題。生產(chǎn)者負(fù)責(zé)選擇將哪個記錄分配給主題中的哪個分區(qū)。這可以以循環(huán)方式完成，只是為了均衡負(fù)載，或者可以根據(jù)某種語義分區(qū)功能（例如基于記錄中的某個鍵）完成。

消費(fèi)者

? ? 消費(fèi)者用消費(fèi)組(consumer group)名稱標(biāo)記自己，并且發(fā)布到主題的每條記錄都被傳送到每個訂閱消費(fèi)組中的一個消費(fèi)者實(shí)例。消費(fèi)者實(shí)例可以在單獨(dú)的進(jìn)程中或在單獨(dú)的機(jī)器上。
? ? 如果所有消費(fèi)者實(shí)例具有相同的消費(fèi)組，則記錄將有效地在消費(fèi)者實(shí)例上進(jìn)行負(fù)載均衡。
? ? 如果所有消費(fèi)者實(shí)例具有不同的消費(fèi)組，則每條記錄都將廣播給所有消費(fèi)者進(jìn)程。
　　

? ? 兩個服務(wù)器Kafka集群托管四個分區(qū)（P0-P3）和兩個消費(fèi)組。消費(fèi)組A有兩個消費(fèi)者實(shí)例，而消費(fèi)組組B有四個消費(fèi)者實(shí)例。
? ? 然而，更常見的是，我們發(fā)現(xiàn)主題的消費(fèi)組很少，每個“邏輯訂閱者”都有一個。每個消費(fèi)組組由許多消費(fèi)者實(shí)例組成，具有可擴(kuò)展性和容錯性。這只不過是發(fā)布—訂閱語義，其中訂閱者是一群消費(fèi)者而不是一個進(jìn)程。
? ? 在Kafka中實(shí)現(xiàn)消費(fèi)的方式是將日志中的分區(qū)分配給消費(fèi)者實(shí)例，以便每個實(shí)例在任何時(shí)間點(diǎn)都是“公平分享”分區(qū)的獨(dú)占消費(fèi)者。維護(hù)組中成員的過程是由Kafka協(xié)議動態(tài)處理的。如果新實(shí)例加入該組，則它們將接管來自該組的其他成員的一些分區(qū)；如果一個實(shí)例死亡，其分區(qū)將分配給其余實(shí)例。
? ? Kafka只提供一個分區(qū)內(nèi)記錄的總順序，而不是主題中不同分區(qū)之間的順序。按分區(qū)排序與按鍵分區(qū)數(shù)據(jù)的能力相結(jié)合，足以滿足大多數(shù)應(yīng)用程序的需求。但是，如果您需要全部記錄的總順序，則可以通過僅有一個分區(qū)的主題來實(shí)現(xiàn)，但這意味著每個消費(fèi)組只有一個消費(fèi)者進(jìn)程。

多租戶

? ? 您可以將Kafka部署為多租戶解決方案。通過配置哪些主題可以產(chǎn)生或消費(fèi)數(shù)據(jù)來啟用多租戶。還有配額操作支持。管理員可以根據(jù)請求定義和執(zhí)行配額以控制客戶端使用的代理資源。有關(guān)更多信息，請參閱security documentation。

保證
kafka的高級API提供以下保證：
☆消息被生產(chǎn)者發(fā)送到一個特定的主題分區(qū)，消息將以發(fā)送的順序追加到這個分區(qū)。比如，如果M1和M2消息都被同一個生產(chǎn)者發(fā)送，M1先發(fā)送，M1的偏移量將比M2的小且更早出現(xiàn)在日志里。
☆消費(fèi)者實(shí)例按照它們存儲在日志中的順序查看記錄。
☆如果一個主題的副本數(shù)是N，我們可以容忍N(yùn)-1個服務(wù)器發(fā)生故障而不會丟失任何提交到日志中的記錄。

關(guān)于保證的更多的細(xì)節(jié)將在文檔的設(shè)計(jì)章節(jié)被給出來。

Kafka作為消息系統(tǒng)

? ? Kafka的流概念如何與傳統(tǒng)的企業(yè)消息系統(tǒng)相比較？
? ? 消息處理歷來有兩種模式：隊(duì)列和發(fā)布-訂閱。在隊(duì)列中，消費(fèi)者池(pool)可以從服務(wù)器讀取，并且每條記錄都會轉(zhuǎn)到其中的一個消費(fèi)者；在發(fā)布-訂閱中，記錄被廣播給所有消費(fèi)者。這兩種模式都有優(yōu)勢和劣勢。隊(duì)列的優(yōu)勢在于它允許您將數(shù)據(jù)分配到多個消費(fèi)者處理，從而擴(kuò)展您的處理。不幸的是，隊(duì)列不支持多個訂閱者—一旦一個進(jìn)程讀取數(shù)據(jù)，其他進(jìn)程就不能訪問了。發(fā)布-訂閱允許您將數(shù)據(jù)廣播到多個進(jìn)程，但無法進(jìn)行擴(kuò)展處理，因?yàn)槊織l消息都發(fā)送給每個訂閱者。
? ? Kafka的消費(fèi)組歸納了這兩個概念。與隊(duì)列一樣，消費(fèi)組允許您將處理流程分配到多個進(jìn)程（消費(fèi)者組成員）。與發(fā)布-訂閱一樣，Kafka允許您向多個消費(fèi)組廣播消息。
? ? Kafka模式的優(yōu)點(diǎn)是每個主題都有這些屬性—它可以擴(kuò)展處理，也可以支持多個訂閱者—沒有必要再二選一了。
? ? Kafka也比傳統(tǒng)的消息系統(tǒng)有更強(qiáng)大的順序保證能力。
? ? 傳統(tǒng)的隊(duì)列在服務(wù)器上按順序保存記錄，如果多個消費(fèi)者從隊(duì)列中消費(fèi)，則服務(wù)器按它們存儲的順序派發(fā)記錄。但是，盡管服務(wù)器按順序派發(fā)記錄，但是記錄是異步傳遞給消費(fèi)者的，它們到達(dá)不同的消費(fèi)者時(shí)可能已經(jīng)亂序了。這實(shí)際上意味著在并行消費(fèi)的情況下記錄的順序會丟失。消息系統(tǒng)通常具有“排他消費(fèi)者”的概念，只允許一個進(jìn)程從隊(duì)列中消耗，但這當(dāng)然意味沒有并行處理能力。
? ? Kafka做得更好。通過主題內(nèi)的分區(qū)來實(shí)現(xiàn)并行，Kafka能夠在消費(fèi)者進(jìn)程池中提供順序保證和負(fù)載均衡。這是通過將主題中的分區(qū)分配給消費(fèi)組中的消費(fèi)者來實(shí)現(xiàn)的，以便每個分區(qū)僅由組中的一個消費(fèi)者使用。通過這樣做，我們確保消費(fèi)者是該分區(qū)的唯一讀者，并按順序使用數(shù)據(jù)。由于有很多分區(qū)，這仍然可以平衡許多消費(fèi)者實(shí)例的負(fù)載。但請注意，消費(fèi)者組中的消費(fèi)者實(shí)例不能多于分區(qū)。

Kafka作為存儲系統(tǒng)

? ? 任何消息隊(duì)列都能夠解耦消息的生產(chǎn)和消費(fèi)，還能夠有效的存儲正在傳送的消息。Kafka的不同之處在于它是一個非常好的存儲系統(tǒng)。
? ? Kafka將數(shù)據(jù)寫入磁盤并進(jìn)行復(fù)制以實(shí)現(xiàn)容錯。Kafka允許生產(chǎn)者等待確認(rèn)，直到副本復(fù)制和持久化全部完成才認(rèn)為寫入成功。
? ? Kafka使用的磁盤結(jié)構(gòu)很好擴(kuò)展—無論您在服務(wù)器上有50KB還是50TB的持久化數(shù)據(jù)，Kafka都會執(zhí)行相同的操作策略。
? ? 由于存儲的重要性，并允許客戶控制自己的讀取位置，您可以將Kafka視為一種專用的分布式文件系統(tǒng)，致力于高性能，低延遲，有保障的日志存儲，能夠備份和自我復(fù)制。
? ? 有關(guān)Kafk日志存儲和復(fù)制設(shè)計(jì)的詳細(xì)信息，請閱讀本頁。

Kafka流處理

? ? 僅讀取，寫入和存儲數(shù)據(jù)流是不夠的，目的是實(shí)時(shí)處理數(shù)據(jù)流。
? ? 在Kafka中，流處理器是指從輸入主題獲取連續(xù)數(shù)據(jù)流，對該輸入執(zhí)行一些處理并生成連續(xù)數(shù)據(jù)流到輸出主題。
? ? 例如，零售應(yīng)用程序可能會接受銷售和裝運(yùn)的輸入流，并輸出一系列重新排序和根據(jù)此數(shù)據(jù)計(jì)算出的價(jià)格調(diào)整。
? ? 可以直接使用生產(chǎn)者API和消費(fèi)者API進(jìn)行簡單的處理。然而，對于更復(fù)雜的轉(zhuǎn)換，Kafka提供了完全集成的Streams API。這允許構(gòu)建應(yīng)用程序進(jìn)行非凡的處理，將計(jì)算從流中剝離或加入流一起。
? ? 這個工具有助于解決這類應(yīng)用程序面臨的難題：處理亂序數(shù)據(jù)，重新處理代碼更改的輸入，執(zhí)行有狀態(tài)的計(jì)算等。
? ? Streams API基于Kafka提供的核心原語構(gòu)建：它使用生產(chǎn)者API和消費(fèi)者API輸入，使用Kafka進(jìn)行有狀態(tài)存儲，并在流處理器實(shí)例之間使用相同的組機(jī)制來實(shí)現(xiàn)容錯。

把功能結(jié)合起來

? ??消息傳遞，存儲和流處理的這種組合可能看起來很不尋常，但對于Kafka作為流式傳輸平臺的角色來說，這是非常重要的。
? ? 像HDFS這樣的分布式文件系統(tǒng)允許存儲用于批處理的靜態(tài)文件。這樣的系統(tǒng)允許存儲和處理過去的歷史數(shù)據(jù)。
? ? 傳統(tǒng)的企業(yè)消息系統(tǒng)允許處理訂閱后才抵達(dá)的消息。以這種方式構(gòu)建的應(yīng)用程序處理將來的數(shù)據(jù)。
? ? Kafka結(jié)合了這兩種功能，而且這兩種組合對于Kafka用作流式傳輸應(yīng)用平臺和流式數(shù)據(jù)管道都非常重要。
? ? 通過將存儲和低延遲訂閱相結(jié)合，流式應(yīng)用可以以相同的方式處理過去和未來的數(shù)據(jù)。也就是一個單一的應(yīng)用程序可以處理歷史的，存儲的數(shù)據(jù)，而不是在它達(dá)到最后一個記錄時(shí)結(jié)束，它可以在將來的數(shù)據(jù)到達(dá)時(shí)繼續(xù)處理。這是流處理的一般概念，包括批處理以及消息驅(qū)動的應(yīng)用程序。
? ? 同樣，對于流式數(shù)據(jù)管道，結(jié)合訂閱實(shí)時(shí)事件，使得可以將Kafka用于非常低延遲的管道；可靠地存儲數(shù)據(jù)的能力可以將其用于必須保證數(shù)據(jù)交付的關(guān)鍵數(shù)據(jù)，或者與只能定期加載數(shù)據(jù)的離線系統(tǒng)集成，或者可能在較長時(shí)間內(nèi)停機(jī)進(jìn)行維護(hù)。流處理設(shè)施可以在數(shù)據(jù)到達(dá)時(shí)進(jìn)行轉(zhuǎn)換。
? ? 有關(guān)Kafka提供的保證，API和功能的更多信息，請參閱其余文檔。