當前位置:首頁 > 公眾號精選 > 架構師社區(qū)
[導讀]Flink是目前流式處理領域的熱門引擎,具備高吞吐、低延遲的特點,在實時數(shù)倉、實時風控、實時推薦等多個場景有著廣泛的應用。

京東Flink優(yōu)化與技術實踐

京東Flink優(yōu)化與技術實踐

享嘉賓: 付海濤 東 高級技術專家

編輯整理:趙明明

出品平臺:DataFunTalk

導讀:Flink是目前流式處理領域的熱門引擎,具備高吞吐、低延遲的特點,在實時數(shù)倉、實時風控、實時推薦等多個場景有著廣泛的應用。京東于2018年開始基于Flink+K8s深入打造高性能、穩(wěn)定、可靠、易用的實時計算平臺,支撐了京東內(nèi)部多條業(yè)務線平穩(wěn)度過618、雙11多次大促。本次講演將分享京東Flink計算平臺在容器化實踐過程中遇到的問題和方案,在性能、穩(wěn)定性、易用性等方面對社區(qū)版Flink所做的深入的定制和優(yōu)化,以及未來的展望和規(guī)劃。主要內(nèi)容包括:

  • 實時計算演進

  • Flink容器化實踐

  • Flink優(yōu)化改進

  • 未來規(guī)劃

01
實時計算引進
1.發(fā)展歷程

京東Flink優(yōu)化與技術實踐

最初大數(shù)據(jù)的模式基本都是T+1,但是隨著業(yè)務發(fā)展,對數(shù)據(jù)實時性的要求越來越高,比如對于一個數(shù)據(jù),希望能夠在分鐘級甚至秒級得到計算結果。京東是在2014年開始基于Storm打造第一代流式計算平臺,并在Storm的基礎上,做了很多優(yōu)化改進,比如基于cgroup實現(xiàn)對worker使用資源的隔離、網(wǎng)絡傳輸壓縮優(yōu)化、引入任務粒度toplogy master分擔zk壓力等。到2016年,Storm已經(jīng)成為京東內(nèi)部流式處理的最主要的計算引擎,服務于各個業(yè)務線,可以達到比較高的實時性。

隨著業(yè)務規(guī)模的不斷擴大,Storm也暴露出許多問題,特別是對于吞吐量巨大、但是對于延遲不是那么敏感的業(yè)務場景顯得力不從心。于是,京東在2017年引入了Spark Streaming流式計算引擎,用于滿足此類場景業(yè)務需要。

隨著業(yè)務的發(fā)展,不光是對于數(shù)據(jù)的延遲有很高要求,同時對于數(shù)據(jù)的吞吐處理能力也有很高的要求,所以迫切需要一個兼具低延遲和高吞吐能力的計算框架,于是在2018年我們引入了Flink。在Flink社區(qū)版的基礎上,我們從性能、穩(wěn)定性、易用性還有功能等方面,都做了一些深入的定制和優(yōu)化。同時我們基于k8s實現(xiàn)了實時計算全面的容器化,因為容器化有很多的優(yōu)點,它可以做到很好的資源隔離,同時它有一個很強的自愈能力,另外它很容易實現(xiàn)資源的彈性調(diào)度。同時我們基于Flink打造了全新的SQL平臺,降低用戶開發(fā)實時計算應用的門檻。

到2020年,基于Flink和k8s實時計算平臺已經(jīng)做的比較完善了。過去流式處理是我們關注的重點,今年我們也開始逐漸的支持批處理,朝著批流一體的方向演進。另外AI是目前比較火的一個方向,對于AI來說,它的實時化也是一個重要的研究方向。所以我們的實時計算平臺將會朝著批流一體和AI的方向進行發(fā)展。

2.平臺架構


京東Flink優(yōu)化與技術實踐

上面是京東實時計算平臺JRC的整體架構,整個架構以定制化改造后的Flink為核心,F(xiàn)link運行在K8S上,狀態(tài)存儲在HDFS集群上,通過Zookeeper保證集群的高可用。支持流式源JDQ(京東基于Kafka深入定制實現(xiàn)的實時數(shù)據(jù)總線)和Hive,數(shù)據(jù)主要寫入JimDB(京東內(nèi)存數(shù)據(jù)庫)、ES、Hbase和京東OLAP。計算平臺支持SQL和普通JAR包兩種方式的作業(yè),具有配置、部署、調(diào)試、監(jiān)控、和日志處理等功能。

3. 業(yè)務場景


京東Flink優(yōu)化與技術實踐


京東Flink服務于京東內(nèi)部非常多的業(yè)務線,有70多個一級部門在使用,主要應用場景包括實時數(shù)倉,實時大屏,實時推薦,實時報表,實時風控和實時監(jiān)控,當然還有其他一些應用場景。對數(shù)據(jù)計算實時性有一定要求的場景,一般都會使用Flink進行開發(fā)。


4. 業(yè)務規(guī)模


京東Flink優(yōu)化與技術實踐

京東Flink集群目前由5000多臺物理機組成,它服務了京東內(nèi)部70多個一級業(yè)務部門,目前線上的流計算任務大概有3000多個,數(shù)據(jù)的處理能力可以達到每分鐘數(shù)十億甚至更高。

02
Flink容器化實踐

1.容器化歷程


京東Flink優(yōu)化與技術實踐

京東從2018年開始進行計算引擎的容器化改造,2019年初已經(jīng)實現(xiàn)計算單元全部容器化,2020年進行了容器化方案升級,使用native k8s實現(xiàn)計算資源的彈性擴容。容器化改造的好處是提升了資源使用率,提高了研發(fā)效率,增強了業(yè)務穩(wěn)定性,減少了運維部署成本。

2.容器化方案


京東Flink優(yōu)化與技術實踐

舊的容器化方案是基于k8s Deployment部署的Standalone Session集群,它需要事先預估出集群所需資源,比如需要的JobManager和TaskManager的資源規(guī)格和個數(shù)。然后JRC平臺通過K8S客戶端向K8S Master提出請求,創(chuàng)建JobManager的Deployment和TaskManager的Deployment。其中使用ZK保證高可用,使用Hdfs實現(xiàn)狀態(tài)存儲,使用Prometheus實現(xiàn)監(jiān)控指標的上傳,結合Grafana實現(xiàn)指標的直觀展示。集群使用ES存儲日志,方便日志的查詢。

3.容器化遇到的問題&對策

京東Flink優(yōu)化與技術實踐

容器化過程中可能遇到很多問題:

①?JM/TM故障自動恢復

應用部署在容器中,當應用出現(xiàn)異常時,如何發(fā)現(xiàn)應用或者異常的情況呢?比如可以使用存活探針,編寫檢測腳本定期讀取應用的心跳信息。當檢測到Pod處于不健康狀態(tài)時,可以采用k8s的重啟機制來重啟不健康的容器。

減少Pod異常對業(yè)務影響

在k8s中由于硬件異常、資源過載、Pod不健康等問題會導致Pod被驅逐或自動重啟,Pod重啟時勢必會影響到該Pod上分布計算任務的正常運行。這個時候可以考慮采用適當?shù)闹貑⒉呗?、改造?nèi)核等方案來減少對任務影響。比如京東實現(xiàn)了JM Failover優(yōu)化,當Pod異常引起JM Failover時采用的是任務不恢復、重建任務狀態(tài)恢復的方式,可以一定程度上減少Pod重啟對業(yè)務帶來的影響。

性能問題

在容器環(huán)境下,JVM對cpu和內(nèi)存的感知會有一定的問題,在Java8版本中,一些參數(shù)就要進行顯式的設置。對于機器性能差異或熱點等問題導致部分Pod計算慢的問題,可以考慮進行針對性優(yōu)化(比如實現(xiàn)基于負載的數(shù)據(jù)分發(fā))或處理(比如檢測到計算慢的Pod將其驅逐到負載較低的機器)。此外,對于使用容器網(wǎng)絡的情況下,可能會帶來一定的網(wǎng)絡性能損耗,此時可以根據(jù)情況選擇使用主機網(wǎng)絡避免網(wǎng)絡虛擬化帶來的開銷,或者選擇更高性能的網(wǎng)絡插件。

重要業(yè)務穩(wěn)定性

如何保證業(yè)務的穩(wěn)定性是一個需要重點考慮的問題。除了保證系統(tǒng)各個環(huán)節(jié)的高可用外,還可以根據(jù)業(yè)務情況考慮使用其它合理的方案,例如業(yè)務分級管理,獨立資源池,多機房互備等。

4.容器化方案升級(Native k8s)


京東Flink優(yōu)化與技術實踐

原有容器化方案存在一定的問題:

  • 資源需要提前分配

  • 無法實現(xiàn)資源彈性伸縮

  • 極端場景下Pod不能正常拉起,影響任務恢復

  • 重要業(yè)務穩(wěn)定性

容器化升級的解決方案是采用Native K8s的方式。由JRC平臺先向K8S Master發(fā)出請求,創(chuàng)建JobManager的Deployment;然后在用戶通過Rest服務提交任務后,由JobMaster通過JDResourceManager 向JRC平臺發(fā)出請求,然后JRC平臺向 K8s Master 動態(tài)申請資源去創(chuàng)建運行TaskManager 的Pod。

此處,通過引入JRC平臺與K8s交互,屏蔽了不同容器平臺的差異,解耦了鏡像與平臺集群配置&邏輯變化。另外,為了兼容原有Slot分配策略,在提交任務時會預估出任務所需資源并一次性申請,之后采用等待一定時間后進行slot分配的方式達到兼容目的。

03
Flink優(yōu)化改進

京東Flink優(yōu)化與技術實踐


主要做了以下四個方面的優(yōu)化:

  • 性能

  • 穩(wěn)定性

  • 易用性

  • 功能擴展

下邊分幾個重要的點進行講解:

1.預覽拓撲

京東Flink優(yōu)化與技術實踐

預覽拓撲主要是為了解決業(yè)務的一些痛點:比如任務調(diào)優(yōu)繁瑣、SQL任務無法指定并行度、任務需要的額Slot數(shù)不清楚、并行度調(diào)整后網(wǎng)絡buffer不足等。在Flink任務調(diào)試階段,對任務并行度、Slot分組、Chaining策略的調(diào)整是個反復的過程,如果把參數(shù)寫到命令行就太繁瑣了。而基于預覽拓撲就可以很方便地對這些參數(shù)進行配置。

京東Flink優(yōu)化與技術實踐

預覽拓撲基本的實現(xiàn)方案如上圖:用戶提交JAR包后可根據(jù)JAR包生成對應的拓撲圖,之后用戶根據(jù)拓撲圖可以進行在線調(diào)整,最后自動將修改后的配置和原來的JAR包一起進行任務提交。

京東Flink優(yōu)化與技術實踐

預覽拓撲機制使得不修改程序多次提交任務調(diào)優(yōu)成為可能,但是如何保證前后兩次提交生成算子穩(wěn)定的對應關系呢?解決方案的關鍵是保證算子有穩(wěn)定的唯一身份標識,具體算法是:如果算子指定了uidHash就用uidHash,如果算子指定了uid就使用uid,否則就從source開始廣度優(yōu)先遍歷,利用算子在graph中的位置生成一個穩(wěn)定hash值。

2.背壓量化


京東Flink優(yōu)化與技術實踐

第二個重要的優(yōu)化是背壓量化。

在Flink開發(fā)的時候,主要有兩種方式:

通過Flink UI背壓面板觀察是否背壓。使用這種方式在某些場景比較方便,但是它存在幾個問題:

  • 在有些場景下采集不到背壓

  • 對于歷史背壓情況無法跟蹤

  • 背壓影響不直觀

  • 大并行度時背壓采集壓力

通過任務背壓相關指標進行觀察和分析,通過將指標定期采集并存儲起來,可以進行實時或歷史的背壓分析。但是它也有一些不足的地方:

  • 不同F(xiàn)link版本中指標含義有一定差異

  • 分析背壓有一定門檻,需要對于指標含義有深入理解,聯(lián)合進行分析

  • 背壓未量化,對業(yè)務影響程度不夠直觀

京東Flink優(yōu)化與技術實踐

京東的解決方案是采集背壓發(fā)生的位置、時間和次數(shù)指標,并對這些指標進行上報存儲。同時對量化的背壓指標結合運行時拓撲,可以精確反映發(fā)生背壓現(xiàn)場的情況。

3.HDFS優(yōu)化


京東Flink優(yōu)化與技術實踐

隨著業(yè)務數(shù)量的增多,HDFS集群的壓力就會變得很大。這會直接導致RPC響應時間變慢,造成請求堆積,同時大量小文件也會對NN內(nèi)存造成很大壓力。對此京東嘗試的解決方案有4方面:限制checkpoint最小間隔,時間最小設置在1min左右可以滿足大部分業(yè)務需求;進行小文件合并;降低cp創(chuàng)建和刪除時的hdfs rpc請求;HDFS集群多ns分散均衡壓力。

4.網(wǎng)絡分發(fā)優(yōu)化


京東Flink優(yōu)化與技術實踐

在實踐過程中我們發(fā)現(xiàn),即使業(yè)務使用了rebalance并且對任務進行了打散分布,但是由于機器處理能力和負載的差異,會導致任務各個并行度不同程序的背壓表現(xiàn),嚴重影響了任務的性能。為此,我們開發(fā)了基于負載的動態(tài)rebalance,在數(shù)據(jù)進行分發(fā)時優(yōu)先選擇下游負載最小的channel進行分發(fā)。

經(jīng)測試,在特定場景下性能能夠提升近一倍。

5.ZK防抖


京東Flink優(yōu)化與技術實踐


目前一般都是使用ZK集群實現(xiàn)Flink集群的高可用,但是當網(wǎng)絡抖動、機器繁忙、ZK集群暫時無響應或運維機器的時候,都可能會導致任務重啟。

京東Flink優(yōu)化與技術實踐

任務重啟的原因是由于在這些場景發(fā)生時,Curator會將狀態(tài)設置為suspended,并且Curator認為suspended為Error狀態(tài),從而會釋放leader,F(xiàn)link發(fā)現(xiàn)notleader后會revokeLeadership,從而造成任務重啟。

一個可行的解決辦法是升級Curator的版本,同時將connectionStateErrorPolicy設置為SessionConnetionStateErrorPolicy。

6.日志分離


京東Flink優(yōu)化與技術實踐


目前我們一個集群是支持跑多個任務的,這時日志會出現(xiàn)的問題是:任務的日志和集群Framework日志混在一起,同時集群的多個任務日志也是混在一起的,不太方便用戶查看日志,快速定位問題。

為了解決這個問題,首先要弄清楚目前Flink加載日志框架的基本機制:為了避免跟業(yè)務Job中可能包含的日志框架的依賴、配置文件產(chǎn)生沖突,F(xiàn)link日志相關類的加載都代理給TaskManager框架的類加載器,也就是Parent Classloader,而框架加載的這些類都是從Flink安裝包的lib目錄下加載的。對于日志配置文件,F(xiàn)link通過 JVM 啟動參數(shù)來指定配置日志配置文件路徑。

京東Flink優(yōu)化與技術實踐

日志分離的解決方案是:將日志相關jar包加入到各個task自己classloader(user classloader)的類路徑中;同時確保使用user classloader加載日志類和加載自己的日志配置;

另外對于使用了Flink框架的類(比如PrintSinkFunction),日志不能做到很好的分離,可以考慮使用logback MDC機制。

04
未來規(guī)劃

京東Flink優(yōu)化與技術實踐

未來規(guī)劃主要包括四個方面:

統(tǒng)一計算引擎

引擎Storm全部升級為Flink,這樣可以減少平臺的運維成本,同時可以提高作業(yè)性能(目前已經(jīng)接近完成)。

更多SQL作業(yè)

持續(xù)完善SQL平臺,降低用戶的使用門檻,推動用戶更多使用SQL開發(fā)作業(yè)。

智能運維

使用智能診斷,自適應調(diào)整運行參數(shù),提升任務的魯棒性

批流一體

深度打造批流一體實時計算平臺,兼具低延遲的流處理和高性能的批處理能力。另外統(tǒng)一架構,實現(xiàn)代碼復用,降低用戶的使用成本。

今天的分享就到這里,謝謝大家。

特別推薦一個分享架構+算法的優(yōu)質內(nèi)容,還沒關注的小伙伴,可以長按關注一下:

京東Flink優(yōu)化與技術實踐

京東Flink優(yōu)化與技術實踐

京東Flink優(yōu)化與技術實踐

長按訂閱更多精彩▼

京東Flink優(yōu)化與技術實踐

如有收獲,點個在看,誠摯感謝

免責聲明:本文內(nèi)容由21ic獲得授權后發(fā)布,版權歸原作者所有,本平臺僅提供信息存儲服務。文章僅代表作者個人觀點,不代表本平臺立場,如有問題,請聯(lián)系我們,謝謝!

本站聲明: 本文章由作者或相關機構授權發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或將催生出更大的獨角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉型技術解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關鍵字: 汽車 人工智能 智能驅動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務中斷的風險,如企業(yè)系統(tǒng)復雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務連續(xù)性,提升韌性,成...

關鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質量流程IT總裁陶景文發(fā)表了演講。

關鍵字: 華為 12nm EDA 半導體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權最終是由生態(tài)的繁榮決定的。

關鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務引領增長 以科技創(chuàng)新為引領,提升企業(yè)核心競爭力 堅持高質量發(fā)展策略,塑強核心競爭優(yōu)勢...

關鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術學會聯(lián)合牽頭組建的NVI技術創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術創(chuàng)新聯(lián)...

關鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關鍵字: BSP 信息技術
關閉
關閉