當前位置:首頁 > 公眾號精選 > 架構(gòu)師社區(qū)
[導讀]Kafka是一個優(yōu)秀的分布式消息中間件,許多系統(tǒng)中都會使用到 Kafka 來做消息通信。對分布式消息系統(tǒng)的了解和使用幾乎成為一個后臺開發(fā)人員必備的技能。今天碼哥字節(jié)就從常見的Kafka面試題入手,和大家聊聊Kafka的那些事兒。

Kafka 是一個優(yōu)秀的分布式消息中間件,許多系統(tǒng)中都會使用到 Kafka 來做消息通信。對分布式消息系統(tǒng)的了解和使用幾乎成為一個后臺開發(fā)人員必備的技能。今天碼哥字節(jié)就從常見的 Kafka 面試題入手,和大家聊聊 Kafka 的那些事兒。

從面試角度一文學完Kafka
思維導圖

講一講分布式消息中間件

問題

  • 什么是分布式消息中間件?
  • 消息中間件的作用是什么?
  • 消息中間件的使用場景是什么?
  • 消息中間件選型?
從面試角度一文學完Kafka
消息隊列

分布式消息是一種通信機制,和 RPC、HTTP、RMI 等不一樣,消息中間件采用分布式中間代理的方式進行通信。如圖所示,采用了消息中間件之后,上游業(yè)務系統(tǒng)發(fā)送消息,先存儲在消息中間件,然后由消息中間件將消息分發(fā)到對應的業(yè)務模塊應用(分布式生產(chǎn)者 - 消費者模式)。這種異步的方式,減少了服務之間的耦合程度。

從面試角度一文學完Kafka
架構(gòu)

定義消息中間件:

  • 利用高效可靠的消息傳遞機制進行平臺無關(guān)的數(shù)據(jù)交流
  • 基于數(shù)據(jù)通信,來進行分布式系統(tǒng)的集成
  • 通過提供消息傳遞和消息排隊模型,可以在分布式環(huán)境下擴展進程間的通信

在系統(tǒng)架構(gòu)中引用額外的組件,必然提高系統(tǒng)的架構(gòu)復雜度和運維的難度,那么在系統(tǒng)中使用分布式消息中間件有什么優(yōu)勢呢?消息中間件在系統(tǒng)中起的作用又是什么呢?

  • 解耦
  • 冗余(存儲)
  • 擴展性
  • 削峰
  • 可恢復性
  • 順序保證
  • 緩沖
  • 異步通信

面試時,面試官經(jīng)常會關(guān)心面試者對開源組件的選型能力,這既可以考驗面試者知識的廣度,也可以考驗面試者對某類系統(tǒng)的知識的認識深度,而且也可以看出面試者對系統(tǒng)整體把握和系統(tǒng)架構(gòu)設計的能力。開源分布式消息系統(tǒng)有很多,不同的消息系統(tǒng)的特性也不一樣,選擇怎樣的消息系統(tǒng),不僅需要對各消息系統(tǒng)有一定的了解,也需要對自身系統(tǒng)需求有清晰的認識。

下面是常見的幾種分布式消息系統(tǒng)的對比:

從面試角度一文學完Kafka
選擇

答案關(guān)鍵字

  • 什么是分布式消息中間件?通信,隊列,分布式,生產(chǎn)消費者模式。
  • 消息中間件的作用是什么?解耦、峰值處理、異步通信、緩沖。
  • 消息中間件的使用場景是什么?異步通信,消息存儲處理。
  • 消息中間件選型?語言,協(xié)議、HA、數(shù)據(jù)可靠性、性能、事務、生態(tài)、簡易、推拉模式。

Kafka 基本概念和架構(gòu)

問題

  • 簡單講下 Kafka 的架構(gòu)?
  • Kafka 是推模式還是拉模式,推拉的區(qū)別是什么?
  • Kafka 如何廣播消息?
  • Kafka 的消息是否是有序的?
  • Kafka 是否支持讀寫分離?
  • Kafka 如何保證數(shù)據(jù)高可用?
  • Kafka 中 zookeeper 的作用?
  • 是否支持事務?
  • 分區(qū)數(shù)是否可以減少?

Kafka 架構(gòu)中的一般概念:

從面試角度一文學完Kafka
架構(gòu)
  • Producer:生產(chǎn)者,也就是發(fā)送消息的一方。生產(chǎn)者負責創(chuàng)建消息,然后將其發(fā)送到 Kafka。
  • Consumer:消費者,也就是接受消息的一方。消費者連接到 Kafka 上并接收消息,進而進行相應的業(yè)務邏輯處理。
  • Consumer Group:一個消費者組可以包含一個或多個消費者。使用多分區(qū) + 多消費者方式可以極大提高數(shù)據(jù)下游的處理速度,同一消費組中的消費者不會重復消費消息,同樣的,不同消費組中的消費者消息消息時互不影響。Kafka 就是通過消費組的方式來實現(xiàn)消息 P2P 模式和廣播模式。
  • Broker:服務代理節(jié)點。Broker 是 Kafka 的服務節(jié)點,即 Kafka 的服務器。
  • Topic:Kafka 中的消息以 Topic 為單位進行劃分,生產(chǎn)者將消息發(fā)送到特定的 Topic,而消費者負責訂閱 Topic 的消息并進行消費。
  • Partition:Topic 是一個邏輯的概念,它可以細分為多個分區(qū),每個分區(qū)只屬于單個主題。同一個主題下不同分區(qū)包含的消息是不同的,分區(qū)在存儲層面可以看作一個可追加的日志(Log)文件,消息在被追加到分區(qū)日志文件的時候都會分配一個特定的偏移量(offset)。
  • Offset:offset 是消息在分區(qū)中的唯一標識,Kafka 通過它來保證消息在分區(qū)內(nèi)的順序性,不過 offset 并不跨越分區(qū),也就是說,Kafka 保證的是分區(qū)有序性而不是主題有序性。
  • Replication:副本,是 Kafka 保證數(shù)據(jù)高可用的方式,Kafka 同一 Partition 的數(shù)據(jù)可以在多 Broker 上存在多個副本,通常只有主副本對外提供讀寫服務,當主副本所在 broker 崩潰或發(fā)生網(wǎng)絡一場,Kafka 會在 Controller 的管理下會重新選擇新的 Leader 副本對外提供讀寫服務。
  • Record:實際寫入 Kafka 中并可以被讀取的消息記錄。每個 record 包含了 key、value 和 timestamp。

Kafka Topic Partitions Layout

從面試角度一文學完Kafka
主題

Kafka 將 Topic 進行分區(qū),分區(qū)可以并發(fā)讀寫。

Kafka Consumer Offset

從面試角度一文學完Kafka
consumer offset

zookeeper

從面試角度一文學完Kafka
zookeeper
  • Broker 注冊:Broker 是分布式部署并且之間相互獨立,Zookeeper 用來管理注冊到集群的所有 Broker 節(jié)點。
  • Topic 注冊:在 Kafka 中,同一個 Topic 的消息會被分成多個分區(qū)并將其分布在多個 Broker 上,這些分區(qū)信息及與 Broker 的對應關(guān)系也都是由 Zookeeper 在維護
  • 生產(chǎn)者負載均衡:由于同一個 Topic 消息會被分區(qū)并將其分布在多個 Broker 上,因此,生產(chǎn)者需要將消息合理地發(fā)送到這些分布式的 Broker 上。
  • 消費者負載均衡:與生產(chǎn)者類似,Kafka 中的消費者同樣需要進行負載均衡來實現(xiàn)多個消費者合理地從對應的 Broker 服務器上接收消息,每個消費者分組包含若干消費者,每條消息都只會發(fā)送給分組中的一個消費者,不同的消費者分組消費自己特定的 Topic 下面的消息,互不干擾。

答案關(guān)鍵字

  • 簡單講下 Kafka 的架構(gòu)?

    Producer、Consumer、Consumer Group、Topic、Partition

  • Kafka 是推模式還是拉模式,推拉的區(qū)別是什么?

    Kafka Producer 向 Broker 發(fā)送消息使用 Push 模式,Consumer 消費采用的 Pull 模式。拉取模式,讓 consumer 自己管理 offset,可以提供讀取性能

  • Kafka 如何廣播消息?

    Consumer group

  • Kafka 的消息是否是有序的?

    Topic 級別無序,Partition 有序

  • Kafka 是否支持讀寫分離?

    不支持,只有 Leader 對外提供讀寫服務

  • Kafka 如何保證數(shù)據(jù)高可用?

    副本,ack,HW

  • Kafka 中 zookeeper 的作用?

    集群管理,元數(shù)據(jù)管理

  • 是否支持事務?

    0.11 后支持事務,可以實現(xiàn)”exactly once“

  • 分區(qū)數(shù)是否可以減少?

    不可以,會丟失數(shù)據(jù)

Kafka 使用

問題

  • Kafka 有哪些命令行工具?你用過哪些?
  • Kafka Producer 的執(zhí)行過程?
  • Kafka Producer 有哪些常見配置?
  • 如何讓 Kafka 的消息有序?
  • Producer 如何保證數(shù)據(jù)發(fā)送不丟失?
  • 如何提升 Producer 的性能?
  • 如果同一 group 下 consumer 的數(shù)量大于 part 的數(shù)量,kafka 如何處理?
  • Kafka Consumer 是否是線程安全的?
  • 講一下你使用 Kafka Consumer 消費消息時的線程模型,為何如此設計?
  • Kafka Consumer 的常見配置?
  • Consumer 什么時候會被踢出集群?
  • 當有 Consumer 加入或退出時,Kafka 會作何反應?
  • 什么是 Rebalance,何時會發(fā)生 Rebalance?

命令行工具

Kafka 的命令行工具在 Kafka 包的/bin目錄下,主要包括服務和集群管理腳本,配置腳本,信息查看腳本,Topic 腳本,客戶端腳本等。

  • kafka-configs.sh:配置管理腳本
  • kafka-console-consumer.sh:kafka 消費者控制臺
  • kafka-console-producer.sh:kafka 生產(chǎn)者控制臺
  • kafka-consumer-groups.sh:kafka 消費者組相關(guān)信息
  • kafka-delete-records.sh:刪除低水位的日志文件
  • kafka-log-dirs.sh:kafka 消息日志目錄信息
  • kafka-mirror-maker.sh:不同數(shù)據(jù)中心 kafka 集群復制工具
  • kafka-preferred-replica-election.sh:觸發(fā) preferred replica 選舉
  • kafka-producer-perf-test.sh:kafka 生產(chǎn)者性能測試腳本
  • kafka-reassign-partitions.sh:分區(qū)重分配腳本
  • kafka-replica-verification.sh:復制進度驗證腳本
  • kafka-server-start.sh:啟動 kafka 服務
  • kafka-server-stop.sh:停止 kafka 服務
  • kafka-topics.sh:topic 管理腳本
  • kafka-verifiable-consumer.sh:可檢驗的 kafka 消費者
  • kafka-verifiable-producer.sh:可檢驗的 kafka 生產(chǎn)者
  • zookeeper-server-start.sh:啟動 zk 服務
  • zookeeper-server-stop.sh:停止 zk 服務
  • zookeeper-shell.sh:zk 客戶端

我們通??梢允褂?code style="font-size: 14px;overflow-wrap: break-word;padding: 2px 4px;border-radius: 4px;margin-right: 2px;margin-left: 2px;background-color: rgba(27, 31, 35, 0.05);font-family: "Operator Mono", Consolas, Monaco, Menlo, monospace;word-break: break-all;color: rgb(0, 150, 136);">kafka-console-consumer.sh和kafka-console-producer.sh腳本來測試 Kafka 生產(chǎn)和消費,kafka-consumer-groups.sh可以查看和管理集群中的 Topic,kafka-topics.sh通常用于查看 Kafka 的消費組情況。

Kafka Producer

Kafka producer 的正常生產(chǎn)邏輯包含以下幾個步驟:

  1. 配置生產(chǎn)者客戶端參數(shù)常見生產(chǎn)者實例。
  2. 構(gòu)建待發(fā)送的消息。
  3. 發(fā)送消息。
  4. 關(guān)閉生產(chǎn)者實例。

Producer 發(fā)送消息的過程如下圖所示,需要經(jīng)過攔截器,序列化器分區(qū)器,最終由累加器批量發(fā)送至 Broker。

從面試角度一文學完Kafka
producer

Kafka Producer 需要以下必要參數(shù):

  • bootstrap.server:指定 Kafka 的 Broker 的地址
  • key.serializer:key 序列化器
  • value.serializer:value 序列化器

常見參數(shù):

  • batch.num.messages

    默認值:200,每次批量消息的數(shù)量,只對 asyc 起作用。

  • request.required.acks

    默認值:0,0 表示 producer 毋須等待 leader 的確認,1 代表需要 leader 確認寫入它的本地 log 并立即確認,-1 代表所有的備份都完成后確認。只對 async 模式起作用,這個參數(shù)的調(diào)整是數(shù)據(jù)不丟失和發(fā)送效率的 tradeoff,如果對數(shù)據(jù)丟失不敏感而在乎效率的場景可以考慮設置為 0,這樣可以大大提高 producer 發(fā)送數(shù)據(jù)的效率。

  • request.timeout.ms

    默認值:10000,確認超時時間。

  • partitioner.class

    默認值:kafka.producer.DefaultPartitioner,必須實現(xiàn) kafka.producer.Partitioner,根據(jù) Key 提供一個分區(qū)策略。有時候我們需要相同類型的消息必須順序處理,這樣我們就必須自定義分配策略,從而將相同類型的數(shù)據(jù)分配到同一個分區(qū)中。

  • producer.type

    默認值:sync,指定消息發(fā)送是同步還是異步。異步 asyc 成批發(fā)送用 kafka.producer.AyncProducer, 同步 sync 用 kafka.producer.SyncProducer。同步和異步發(fā)送也會影響消息生產(chǎn)的效率。

  • compression.topic

    默認值:none,消息壓縮,默認不壓縮。其余壓縮方式還有,"gzip"、"snappy"和"lz4"。對消息的壓縮可以極大地減少網(wǎng)絡傳輸量、降低網(wǎng)絡 IO,從而提高整體性能。

  • compressed.topics

    默認值:null,在設置了壓縮的情況下,可以指定特定的 topic 壓縮,未指定則全部壓縮。

  • message.send.max.retries

    默認值:3,消息發(fā)送最大嘗試次數(shù)。

  • retry.backoff.ms

    默認值:300,每次嘗試增加的額外的間隔時間。

  • topic.metadata.refresh.interval.ms

    默認值:600000,定期的獲取元數(shù)據(jù)的時間。當分區(qū)丟失,leader 不可用時 producer 也會主動獲取元數(shù)據(jù),如果為 0,則每次發(fā)送完消息就獲取元數(shù)據(jù),不推薦。如果為負值,則只有在失敗的情況下獲取元數(shù)據(jù)。

  • queue.buffering.max.ms

    默認值:5000,在 producer queue 的緩存的數(shù)據(jù)最大時間,僅僅 for asyc。

  • queue.buffering.max.message

    默認值:10000,producer 緩存的消息的最大數(shù)量,僅僅 for asyc。

  • queue.enqueue.timeout.ms

    默認值:-1,0 當 queue 滿時丟掉,負值是 queue 滿時 block, 正值是 queue 滿時 block 相應的時間,僅僅 for asyc。

Kafka Consumer

Kafka 有消費組的概念,每個消費者只能消費所分配到的分區(qū)的消息,每一個分區(qū)只能被一個消費組中的一個消費者所消費,所以同一個消費組中消費者的數(shù)量如果超過了分區(qū)的數(shù)量,將會出現(xiàn)有些消費者分配不到消費的分區(qū)。消費組與消費者關(guān)系如下圖所示:

從面試角度一文學完Kafka
consumer group

Kafka Consumer Client 消費消息通常包含以下步驟:

  1. 配置客戶端,創(chuàng)建消費者
  2. 訂閱主題
  3. 拉去消息并消費
  4. 提交消費位移
  5. 關(guān)閉消費者實例
從面試角度一文學完Kafka
過程

因為 Kafka 的 Consumer 客戶端是線程不安全的,為了保證線程安全,并提升消費性能,可以在 Consumer 端采用類似 Reactor 的線程模型來消費數(shù)據(jù)。

從面試角度一文學完Kafka
消費模型

Kafka consumer 參數(shù)

  • bootstrap.servers:連接 broker 地址, host:port 格式。
  • group.id:消費者隸屬的消費組。
  • key.deserializer:與生產(chǎn)者的 key.serializer對應,key 的反序列化方式。
  • value.deserializer:與生產(chǎn)者的 value.serializer對應,value 的反序列化方式。
  • session.timeout.ms:coordinator 檢測失敗的時間。默認 10s 該參數(shù)是 Consumer Group 主動檢測 (組內(nèi)成員 comsummer) 崩潰的時間間隔,類似于心跳過期時間。
  • auto.offset.reset:該屬性指定了消費者在讀取一個沒有偏移量后者偏移量無效(消費者長時間失效當前的偏移量已經(jīng)過時并且被刪除了)的分區(qū)的情況下,應該作何處理,默認值是 latest,也就是從最新記錄讀取數(shù)據(jù)(消費者啟動之后生成的記錄),另一個值是 earliest,意思是在偏移量無效的情況下,消費者從起始位置開始讀取數(shù)據(jù)。
  • enable.auto.commit:否自動提交位移,如果為 false,則需要在程序中手動提交位移。對于精確到一次的語義,最好手動提交位移
  • fetch.max.bytes:單次拉取數(shù)據(jù)的最大字節(jié)數(shù)量
  • max.poll.records:單次 poll 調(diào)用返回的最大消息數(shù),如果處理邏輯很輕量,可以適當提高該值。但是 max.poll.records條數(shù)據(jù)需要在在 session.timeout.ms 這個時間內(nèi)處理完 。默認值為 500
  • request.timeout.ms:一次請求響應的最長等待時間。如果在超時時間內(nèi)未得到響應,kafka 要么重發(fā)這條消息,要么超過重試次數(shù)的情況下直接置為失敗。

Kafka Rebalance

rebalance 本質(zhì)上是一種協(xié)議,規(guī)定了一個 consumer group 下的所有 consumer 如何達成一致來分配訂閱 topic 的每個分區(qū)。比如某個 group 下有 20 個 consumer,它訂閱了一個具有 100 個分區(qū)的 topic。正常情況下,Kafka 平均會為每個 consumer 分配 5 個分區(qū)。這個分配的過程就叫 rebalance。

什么時候 rebalance?

這也是經(jīng)常被提及的一個問題。rebalance 的觸發(fā)條件有三種:

  • 組成員發(fā)生變更(新 consumer 加入組、已有 consumer 主動離開組或已有 consumer 崩潰了——這兩者的區(qū)別后面會談到)
  • 訂閱主題數(shù)發(fā)生變更
  • 訂閱主題的分區(qū)數(shù)發(fā)生變更

如何進行組內(nèi)分區(qū)分配?

Kafka 默認提供了兩種分配策略:Range 和 Round-Robin。當然 Kafka 采用了可插拔式的分配策略,你可以創(chuàng)建自己的分配器以實現(xiàn)不同的分配策略。

答案關(guān)鍵字

  • Kafka 有哪些命令行工具?你用過哪些? /bin目錄,管理 kafka 集群、管理 topic、生產(chǎn)和消費 kafka
  • Kafka Producer 的執(zhí)行過程?攔截器,序列化器,分區(qū)器和累加器
  • Kafka Producer 有哪些常見配置?broker 配置,ack 配置,網(wǎng)絡和發(fā)送參數(shù),壓縮參數(shù),ack 參數(shù)
  • 如何讓 Kafka 的消息有序?Kafka 在 Topic 級別本身是無序的,只有 partition 上才有序,所以為了保證處理順序,可以自定義分區(qū)器,將需順序處理的數(shù)據(jù)發(fā)送到同一個 partition
  • Producer 如何保證數(shù)據(jù)發(fā)送不丟失?ack 機制,重試機制
  • 如何提升 Producer 的性能?批量,異步,壓縮
  • 如果同一 group 下 consumer 的數(shù)量大于 part 的數(shù)量,kafka 如何處理?多余的 Part 將處于無用狀態(tài),不消費數(shù)據(jù)
  • Kafka Consumer 是否是線程安全的?不安全,單線程消費,多線程處理
  • 講一下你使用 Kafka Consumer 消費消息時的線程模型,為何如此設計?拉取和處理分離
  • Kafka Consumer 的常見配置?broker, 網(wǎng)絡和拉取參數(shù),心跳參數(shù)
  • Consumer 什么時候會被踢出集群?奔潰,網(wǎng)絡異常,處理時間過長提交位移超時
  • 當有 Consumer 加入或退出時,Kafka 會作何反應?進行 Rebalance
  • 什么是 Rebalance,何時會發(fā)生 Rebalance?topic 變化,consumer 變化

高可用和性能

問題

  • Kafka 如何保證高可用?
  • Kafka 的交付語義?
  • Replic 的作用?
  • 什么事 AR,ISR?
  • Leader 和 Flower 是什么?
  • Kafka 中的 HW、LEO、LSO、LW 等分別代表什么?
  • Kafka 為保證優(yōu)越的性能做了哪些處理?

分區(qū)與副本

從面試角度一文學完Kafka
分區(qū)副本

在分布式數(shù)據(jù)系統(tǒng)中,通常使用分區(qū)來提高系統(tǒng)的處理能力,通過副本來保證數(shù)據(jù)的高可用性。多分區(qū)意味著并發(fā)處理的能力,這多個副本中,只有一個是 leader,而其他的都是 follower 副本。僅有 leader 副本可以對外提供服務。多個 follower 副本通常存放在和 leader 副本不同的 broker 中。通過這樣的機制實現(xiàn)了高可用,當某臺機器掛掉后,其他 follower 副本也能迅速”轉(zhuǎn)正“,開始對外提供服務。

為什么 follower 副本不提供讀服務?

這個問題本質(zhì)上是對性能和一致性的取舍。試想一下,如果 follower 副本也對外提供服務那會怎么樣呢?首先,性能是肯定會有所提升的。但同時,會出現(xiàn)一系列問題。類似數(shù)據(jù)庫事務中的幻讀,臟讀。比如你現(xiàn)在寫入一條數(shù)據(jù)到 kafka 主題 a,消費者 b 從主題 a 消費數(shù)據(jù),卻發(fā)現(xiàn)消費不到,因為消費者 b 去讀取的那個分區(qū)副本中,最新消息還沒寫入。而這個時候,另一個消費者 c 卻可以消費到最新那條數(shù)據(jù),因為它消費了 leader 副本。Kafka 通過 WH 和 Offset 的管理來決定 Consumer 可以消費哪些數(shù)據(jù),已經(jīng)當前寫入的數(shù)據(jù)。

從面試角度一文學完Kafka
watermark

只有 Leader 可以對外提供讀服務,那如何選舉 Leader

kafka 會將與 leader 副本保持同步的副本放到 ISR 副本集合中。當然,leader 副本是一直存在于 ISR 副本集合中的,在某些特殊情況下,ISR 副本中甚至只有 leader 一個副本。當 leader 掛掉時,kakfa 通過 zookeeper 感知到這一情況,在 ISR 副本中選取新的副本成為 leader,對外提供服務。但這樣還有一個問題,前面提到過,有可能 ISR 副本集合中,只有 leader,當 leader 副本掛掉后,ISR 集合就為空,這時候怎么辦呢?這時候如果設置 unclean.leader.election.enable 參數(shù)為 true,那么 kafka 會在非同步,也就是不在 ISR 副本集合中的副本中,選取出副本成為 leader。

副本的存在就會出現(xiàn)副本同步問題

Kafka 在所有分配的副本 (AR) 中維護一個可用的副本列表 (ISR),Producer 向 Broker 發(fā)送消息時會根據(jù)ack配置來確定需要等待幾個副本已經(jīng)同步了消息才相應成功,Broker 內(nèi)部會ReplicaManager服務來管理 flower 與 leader 之間的數(shù)據(jù)同步。

從面試角度一文學完Kafka
sync

性能優(yōu)化

  • partition 并發(fā)
  • 順序讀寫磁盤
  • page cache:按頁讀寫
  • 預讀:Kafka 會將將要消費的消息提前讀入內(nèi)存
  • 高性能序列化(二進制)
  • 內(nèi)存映射
  • 無鎖 offset 管理:提高并發(fā)能力
  • Java NIO 模型
  • 批量:批量讀寫
  • 壓縮:消息壓縮,存儲壓縮,減小網(wǎng)絡和 IO 開銷

Partition 并發(fā)

一方面,由于不同 Partition 可位于不同機器,因此可以充分利用集群優(yōu)勢,實現(xiàn)機器間的并行處理。另一方面,由于 Partition 在物理上對應一個文件夾,即使多個 Partition 位于同一個節(jié)點,也可通過配置讓同一節(jié)點上的不同 Partition 置于不同的 disk drive 上,從而實現(xiàn)磁盤間的并行處理,充分發(fā)揮多磁盤的優(yōu)勢。

順序讀寫

Kafka 每一個 partition 目錄下的文件被平均切割成大小相等(默認一個文件是 500 兆,可以手動去設置)的數(shù)據(jù)文件, 每一個數(shù)據(jù)文件都被稱為一個段(segment file), 每個 segment 都采用 append 的方式追加數(shù)據(jù)。

從面試角度一文學完Kafka
追加數(shù)據(jù)

答案關(guān)鍵字

  • Kafka 如何保證高可用?

    通過副本來保證數(shù)據(jù)的高可用,producer ack、重試、自動 Leader 選舉,Consumer 自平衡

  • Kafka 的交付語義?

    交付語義一般有at least once、at most onceexactly once。kafka 通過 ack 的配置來實現(xiàn)前兩種。

  • Replic 的作用?

    實現(xiàn)數(shù)據(jù)的高可用

  • 什么是 AR,ISR?

    AR:Assigned Replicas。AR 是主題被創(chuàng)建后,分區(qū)創(chuàng)建時被分配的副本集合,副本個 數(shù)由副本因子決定。ISR:In-Sync Replicas。Kafka 中特別重要的概念,指代的是 AR 中那些與 Leader 保 持同步的副本集合。在 AR 中的副本可能不在 ISR 中,但 Leader 副本天然就包含在 ISR 中。關(guān)于 ISR,還有一個常見的面試題目是如何判斷副本是否應該屬于 ISR。目前的判斷 依據(jù)是:Follower 副本的 LEO 落后 Leader LEO 的時間,是否超過了 Broker 端參數(shù) replica.lag.time.max.ms 值。如果超過了,副本就會被從 ISR 中移除。

  • Leader 和 Flower 是什么?

  • Kafka 中的 HW 代表什么?

    高水位值 (High watermark)。這是控制消費者可讀取消息范圍的重要字段。一 個普通消費者只能“看到”Leader 副本上介于 Log Start Offset 和 HW(不含)之間的 所有消息。水位以上的消息是對消費者不可見的。

  • Kafka 為保證優(yōu)越的性能做了哪些處理?

    partition 并發(fā)、順序讀寫磁盤、page cache 壓縮、高性能序列化(二進制)、內(nèi)存映射 無鎖 offset 管理、Java NIO 模型

本文并沒有深入 Kafka 的實現(xiàn)細節(jié)和源碼分析,但 Kafka 確實是一個 優(yōu)秀的開源系統(tǒng),很多優(yōu)雅的架構(gòu)設計和源碼設計都值得我們學習,十分建議感興趣的同學更加深入的去了解一下這個開源系統(tǒng),對于自身架構(gòu)設計能力,編碼能力,性能優(yōu)化都會有很大的幫助。

特別推薦一個分享架構(gòu)+算法的優(yōu)質(zhì)內(nèi)容,還沒關(guān)注的小伙伴,可以長按關(guān)注一下:

從面試角度一文學完Kafka

從面試角度一文學完Kafka

從面試角度一文學完Kafka

長按訂閱更多精彩▼

從面試角度一文學完Kafka

如有收獲,點個在看,誠摯感謝


免責聲明:本文內(nèi)容由21ic獲得授權(quán)后發(fā)布,版權(quán)歸原作者所有,本平臺僅提供信息存儲服務。文章僅代表作者個人觀點,不代表本平臺立場,如有問題,請聯(lián)系我們,謝謝!

本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務中斷的風險,如企業(yè)系統(tǒng)復雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務引領增長 以科技創(chuàng)新為引領,提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉