五分鐘看懂抓包神技:DPDK
我是一個(gè)網(wǎng)絡(luò)監(jiān)控軟件,我被開(kāi)發(fā)出來(lái)的使命就是監(jiān)控網(wǎng)絡(luò)中進(jìn)進(jìn)出出的所有通信流量。
一直以來(lái),我的工作都非常的出色,但是隨著我監(jiān)控的網(wǎng)絡(luò)越來(lái)越龐大,網(wǎng)絡(luò)中的通信流量也變得越來(lái)越多,我開(kāi)始有些忙不過(guò)來(lái)了,逐漸發(fā)生丟包的現(xiàn)象,而且最近這一現(xiàn)象越發(fā)的嚴(yán)重了。

萬(wàn)兆流量需求
一天晚上,程序員哥哥把我從硬盤(pán)上叫了起來(lái)。
“這都幾點(diǎn)了,你怎么還不下班啊?”,我問(wèn)小哥哥。
“哎,產(chǎn)品經(jīng)理說(shuō)了,讓我下個(gè)月必須支持萬(wàn)兆網(wǎng)絡(luò)流量的分析,我這壓力可大了,沒(méi)辦法只好加班了?!保f(shuō)完整理了一下自己那日益稀疏的頭發(fā)。
“萬(wàn)兆?10Gbps?開(kāi)玩笑呢吧?這是要累死我的節(jié)奏啊”
“可不是嗎,可愁死我了。你快給我說(shuō)說(shuō),你工作這么久了,有沒(méi)有干的不爽的或者覺(jué)得可以改進(jìn)的地方都可以給我說(shuō)說(shuō)”,小哥哥真誠(chéng)的看著我。
我思考了片刻說(shuō)到:“要說(shuō)干的不爽的,還真有!就是我現(xiàn)在花了太多時(shí)間在拷貝數(shù)據(jù)包了,把數(shù)據(jù)包從內(nèi)核空間拷貝到用戶態(tài)空間,以前數(shù)據(jù)量小還行,現(xiàn)在網(wǎng)絡(luò)流量這么大,可真是要了我的老命了?!?/p>
小哥哥嘆了口氣,“哎,這個(gè)改不了,數(shù)據(jù)包是通過(guò)操作系統(tǒng)的API獲取的,操作系統(tǒng)又是從網(wǎng)卡那里讀取的,咱們是工作在用戶空間的程序,必須要拷貝一次,這沒(méi)辦法。你再想想別的?”
我也嘆了口氣,“那行吧,還有一個(gè)槽點(diǎn),數(shù)據(jù)包收到后能不能直接交給我,別交給系統(tǒng)的協(xié)議棧和netfilter框架他們?nèi)ヌ幚砹耍凑夷脕?lái)后也要重新分析,每次都從他們那里過(guò)一次,他們辦事效率又低,這不拖累我的工作嘛”

小哥哥皺著眉頭,眨了眨眼睛說(shuō)到:“大兄弟,這個(gè)咱也改不了啊,我這水平也有限,我還沒(méi)有能力改造你繞過(guò)操作系統(tǒng)讓你直接去跟網(wǎng)卡打交道啊。要不,要不你再說(shuō)一個(gè)?嘿嘿”
“好吧,我也就不為難你了。有個(gè)簡(jiǎn)單的問(wèn)題,你可得改一下”
“什么問(wèn)題,說(shuō)說(shuō)看?”
“就是我現(xiàn)在花了很多時(shí)間在線程切換上,等到再次獲得調(diào)度執(zhí)行后,經(jīng)常發(fā)現(xiàn)換了一個(gè)CPU核,導(dǎo)致之前的緩存都失效了,得重新建立緩存,這又是一個(gè)很大的浪費(fèi)?。∧懿荒茏屛业墓ぷ骶€程獨(dú)占CPU的核心,這樣我肯定能提高不少工作效率!”

小哥哥稍微思考了一下,說(shuō)到:“沒(méi)問(wèn)題,這個(gè)可以有!用線程親和性就可以搞定,給你劃幾個(gè)核出來(lái),不讓它們參與系統(tǒng)的線程調(diào)度分配,專(zhuān)門(mén)給你用,這事就包在我身上吧!”
中斷問(wèn)題
過(guò)了幾天,程序員哥哥對(duì)我進(jìn)行了升級(jí)改造,讓我的幾個(gè)工作線程都能獨(dú)占CPU核,工作效率提升了不少。
不過(guò),距離產(chǎn)品經(jīng)理要求的萬(wàn)兆流量分析指標(biāo),那還是差了一大截。
一天晚上,程序員小哥哥又找我聊了起來(lái)。
“現(xiàn)在分析能力確實(shí)有所提升,不過(guò)離目標(biāo)還差得遠(yuǎn)啊,你快給我說(shuō)說(shuō),還有沒(méi)有改進(jìn)的建議給我???”
“有倒是有,但是我估計(jì)你還是會(huì)說(shuō)改不了”,我翻了個(gè)白眼。
“你先說(shuō)說(shuō)看嘛!”
“現(xiàn)在這個(gè)數(shù)據(jù)包是用中斷的形式來(lái)通知讀取的,能不能不用中斷,讓我自己去取???你是不知道,每次中斷都要保存上下文,從用戶態(tài)切換到內(nèi)核態(tài),那么多流量,這開(kāi)銷(xiāo)大了去了!”,我激動(dòng)的說(shuō)到。

小哥哥聽(tīng)完沉默了。
“看吧,我就說(shuō)你改不了吧!還是算了吧,趁早給產(chǎn)品經(jīng)理說(shuō)這個(gè)需求做不了,咱倆都輕松自在”
“那不行,這個(gè)項(xiàng)目對(duì)我非常重要,我還指望通過(guò)你來(lái)升職加薪,走向人生巔峰呢!”,小哥哥說(shuō)的很堅(jiān)定。
“實(shí)在不行,那就多找?guī)着_(tái)機(jī)器,把我copy幾份過(guò)去,軟件不行就靠硬件堆出性能嘛!”,我沖他眨了個(gè)眼睛。
“這還用你說(shuō),老板肯定不會(huì)同意的”
“那我沒(méi)轍了,實(shí)話告訴你吧,想要我能處理萬(wàn)兆網(wǎng)絡(luò)流量,非得繞開(kāi)操作系統(tǒng),我親自去從網(wǎng)卡讀取數(shù)據(jù)包不可,你好好去研究下吧,想升職加薪,怎么能怕難呢!”,我給小哥哥打了打氣。
小哥哥點(diǎn)了點(diǎn)頭,“你說(shuō)的是,我一定可以的,給我一點(diǎn)時(shí)間”
DPDK
就這樣過(guò)了一個(gè)多星期,程序員小哥哥一直沒(méi)再來(lái)找過(guò)我,也不知道他研究的怎么樣了。
又過(guò)了好幾天,他終于又來(lái)了。
“快出來(lái)!我找到辦法了,明天就開(kāi)始改造你!”
我一聽(tīng)來(lái)了興趣,“什么辦法?你打算怎么改造我?”
“這個(gè)新方案可以解決你之前提出的所有問(wèn)題,可以讓你直接去跟網(wǎng)卡打交道,不用中斷來(lái)通知讀取數(shù)據(jù)包,也不用再把數(shù)據(jù)包交給系統(tǒng)協(xié)議棧和netfilter框架處理,不用再頻繁的在用戶態(tài)和內(nèi)核態(tài)反復(fù)切換了!”,小哥哥越說(shuō)越激動(dòng)!
“你也太牛了吧,能把這些問(wèn)題都解決了!你是怎么做到這些的,什么原理?”,我好奇的問(wèn)到。
小哥哥有些不好意思,“我哪有那本事啊,其實(shí)這是別人開(kāi)發(fā)的技術(shù),我只是拿來(lái)用而已。”
“額,那你都弄清楚它的原理了嗎,別到時(shí)候坑我?。 ?,我有些不太放心。
“這個(gè)你放心,這個(gè)技術(shù)叫DPDK,是人家Intel開(kāi)發(fā)的技術(shù),靠譜!”
接下來(lái),程序員小哥哥給我介紹了這個(gè)叫DPDK的技術(shù)原理。

有了DPDK,通過(guò)操作系統(tǒng)的用戶態(tài)模式驅(qū)動(dòng)UIO,我可以在用戶態(tài)通過(guò)輪詢的方式讀取網(wǎng)卡的數(shù)據(jù)包,再也不用中斷了!
直接在用戶態(tài)讀取,再也不用把數(shù)據(jù)包在內(nèi)核態(tài)空間和用戶態(tài)空間搬來(lái)搬去。讀到了之后我直接就可以分析,還不用走系統(tǒng)協(xié)議棧和netfilter瞎耽誤功夫,簡(jiǎn)直完美!
“還不止這些呢!還支持大頁(yè)內(nèi)存技術(shù)”,小哥哥得意的說(shuō)到。
“大頁(yè)內(nèi)存?這是什么”
“默認(rèn)情況下系統(tǒng)不是以4KB大小來(lái)管理內(nèi)存頁(yè)面的嗎?這個(gè)單位太小了,對(duì)于咱們服務(wù)器內(nèi)存會(huì)有大量的內(nèi)存頁(yè)面,為了管理這些頁(yè)面,就會(huì)有大量的頁(yè)表項(xiàng)。CPU里面進(jìn)行內(nèi)存地址翻譯的緩存TLB大小有限,頁(yè)表項(xiàng)太多就會(huì)頻繁失效,降低內(nèi)存地址翻譯的速度!”

聽(tīng)到這里,我突然明白了:“我知道了,把這個(gè)單位調(diào)大,管理的內(nèi)存頁(yè)面就少了,頁(yè)表項(xiàng)數(shù)量就少了,TLB就不容易失效,地址翻譯就能更快對(duì)不對(duì)?”
“沒(méi)錯(cuò),你猜猜看,調(diào)到多大?”,小哥哥故作神秘。
“翻一倍,8KB?”,見(jiàn)小哥哥搖搖頭,我又猜到:“難道是16KB?”
“太保守了,能支持2MB和1GB兩種大小呢!”
“這么大,厲害了!”
空轉(zhuǎn)問(wèn)題
第二天,程序員小哥哥開(kāi)始了對(duì)我進(jìn)行了徹底的重構(gòu)。
升級(jí)后的我試著跑了一下,發(fā)現(xiàn)了一個(gè)問(wèn)題:如果數(shù)據(jù)包不是很多或者沒(méi)有數(shù)據(jù)包的情況下,我的輪詢基本上就挺浪費(fèi)時(shí)間的,一直空轉(zhuǎn),由于我獨(dú)占了一個(gè)核,這個(gè)核的占用率就一直是100%,不少別的程序都吐槽我,占著**不**。
于是,程序員小哥哥又對(duì)我進(jìn)行了升級(jí),用上了Interrupt DPDK模式:沒(méi)有數(shù)據(jù)包處理時(shí)就進(jìn)入睡眠,改為中斷通知。還可以和其他線程共享CPU核,不再獨(dú)占,但是DPDK線程會(huì)有更高調(diào)度優(yōu)先級(jí),一旦數(shù)據(jù)包多了起來(lái),我又變成輪詢模式,可以靈活切換。
程序員哥哥連續(xù)加了兩個(gè)星期的班,經(jīng)過(guò)一番優(yōu)化升級(jí),我的數(shù)據(jù)包分析處理能力有了極大的提升。
然而遺憾的是,測(cè)試了幾輪,當(dāng)面臨10Gbps的流量時(shí),我還是有點(diǎn)力不從心,還是差了那么一點(diǎn)點(diǎn)。
小哥哥有些灰心喪氣,“我不知道該怎么辦了,你覺(jué)得還有什么哪些地方可以改進(jìn)嗎?”
“我現(xiàn)在基本滿負(fù)荷工作了,應(yīng)該沒(méi)有什么地方可以改進(jìn)了。現(xiàn)在唯一有時(shí)間喘口氣的地方就是數(shù)據(jù)競(jìng)爭(zhēng)的時(shí)候了,遇到數(shù)據(jù)被加了鎖發(fā)生線程切換歇一歇”
小哥哥思考了幾秒鐘,突然眼睛一亮,高興的說(shuō)到:“有了!”
還沒(méi)來(lái)得及問(wèn),就把我關(guān)閉,下班去了~
到底程序員小哥哥又要對(duì)我做什么呢?
特別推薦一個(gè)分享架構(gòu)+算法的優(yōu)質(zhì)內(nèi)容,還沒(méi)關(guān)注的小伙伴,可以長(zhǎng)按關(guān)注一下:
長(zhǎng)按訂閱更多精彩▼
如有收獲,點(diǎn)個(gè)在看,誠(chéng)摯感謝
免責(zé)聲明:本文內(nèi)容由21ic獲得授權(quán)后發(fā)布,版權(quán)歸原作者所有,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。文章僅代表作者個(gè)人觀點(diǎn),不代表本平臺(tái)立場(chǎng),如有問(wèn)題,請(qǐng)聯(lián)系我們,謝謝!