當(dāng)前位置:首頁(yè) > 公眾號(hào)精選 > 小林coding
[導(dǎo)讀]如果「服務(wù)端掛掉」指的是「服務(wù)端進(jìn)程崩潰」,那么這個(gè)讀者猜的想法是對(duì)的,服務(wù)端的進(jìn)程在發(fā)生崩潰的時(shí)候,內(nèi)核會(huì)發(fā)送 FIN 報(bào)文,與客戶(hù)端進(jìn)行四次揮手。

收到一位讀者的私信,說(shuō)字節(jié)面試有這么一個(gè)問(wèn)題:服務(wù)端掛了,客戶(hù)端的 TCP 連接會(huì)發(fā)生什么?

如果「服務(wù)端掛掉」指的是「服務(wù)端進(jìn)程崩潰」,那么這個(gè)讀者猜的想法是對(duì)的,服務(wù)端的進(jìn)程在發(fā)生崩潰的時(shí)候,內(nèi)核會(huì)發(fā)送 FIN 報(bào)文,與客戶(hù)端進(jìn)行四次揮手。

但是,如果「服務(wù)端掛掉」指的是「服務(wù)端主機(jī)宕機(jī)」,那么是不會(huì)發(fā)生四次揮手的,具體后續(xù)會(huì)發(fā)生什么?還要看客戶(hù)端會(huì)不會(huì)發(fā)送數(shù)據(jù)?

  • 如果客戶(hù)端會(huì)發(fā)送數(shù)據(jù),由于服務(wù)端已經(jīng)不存在,客戶(hù)端的數(shù)據(jù)報(bào)文會(huì)超時(shí)重傳,當(dāng)重傳次數(shù)達(dá)到一定閾值后,會(huì)斷開(kāi) TCP 連接;
  • 如果客戶(hù)端一直不會(huì)發(fā)送數(shù)據(jù),再看客戶(hù)端有沒(méi)有開(kāi)啟 TCP keepalive 機(jī)制?
    • 如果有開(kāi)啟,客戶(hù)端在一段時(shí)間后,檢測(cè)到服務(wù)端的 TCP 連接已經(jīng)不存在,則會(huì)斷開(kāi)自身的 TCP 連接;
    • 如果沒(méi)有開(kāi)啟,客戶(hù)端的 TCP 連接會(huì)一直存在,并不會(huì)斷開(kāi)。

上面屬于精簡(jiǎn)回答了,下面我們?cè)敿?xì)聊聊。

服務(wù)端進(jìn)程崩潰,客戶(hù)端會(huì)發(fā)生什么?

TCP 的連接信息是由內(nèi)核維護(hù)的,所以當(dāng)服務(wù)端的進(jìn)程崩潰后,內(nèi)核需要回收該進(jìn)程的所有 TCP 連接資源,于是內(nèi)核會(huì)發(fā)送第一次揮手 FIN 報(bào)文,后續(xù)的揮手過(guò)程也都是在內(nèi)核完成,并不需要進(jìn)程的參與,所以即使服務(wù)端的進(jìn)程退出了,還是能與客戶(hù)端完成 TCP四次揮手的過(guò)程。

我自己也做了實(shí)驗(yàn),使用 kill -9 命令來(lái)模擬進(jìn)程崩潰的情況,發(fā)現(xiàn)在 kill 掉進(jìn)程后,服務(wù)端會(huì)發(fā)送 FIN 報(bào)文,與客戶(hù)端進(jìn)行四次揮手。

服務(wù)端主機(jī)宕機(jī)后,客戶(hù)端會(huì)發(fā)生什么?

當(dāng)服務(wù)端的主機(jī)突然斷電了,這種情況就是屬于服務(wù)端主機(jī)宕機(jī)了。

當(dāng)服務(wù)端的主機(jī)發(fā)生了宕機(jī),是沒(méi)辦法和客戶(hù)端進(jìn)行四次揮手的,所以在服務(wù)端主機(jī)發(fā)生宕機(jī)的那一時(shí)刻,客戶(hù)端是沒(méi)辦法立刻感知到服務(wù)端主機(jī)宕機(jī)了,只能在后續(xù)的數(shù)據(jù)交互中來(lái)感知服務(wù)端的連接已經(jīng)不存在了。

因此,我們要分兩種情況來(lái)討論:

  • 服務(wù)端主機(jī)宕機(jī)后,客戶(hù)端會(huì)發(fā)送數(shù)據(jù);
  • 服務(wù)端主機(jī)宕機(jī)后,客戶(hù)端一直不會(huì)發(fā)送數(shù)據(jù);

服務(wù)端主機(jī)宕機(jī)后,如果客戶(hù)端會(huì)發(fā)送數(shù)據(jù)

在服務(wù)端主機(jī)宕機(jī)后,客戶(hù)端發(fā)送了數(shù)據(jù)報(bào)文,由于得不到響應(yīng),在等待一定時(shí)長(zhǎng)后,客戶(hù)端就會(huì)觸發(fā)超時(shí)重傳機(jī)制,重傳未得到響應(yīng)的數(shù)據(jù)報(bào)文。

當(dāng)重傳次數(shù)達(dá)到達(dá)到一定閾值后,內(nèi)核就會(huì)判定出該 TCP 連接有問(wèn)題,然后通過(guò) Socket 接口告訴應(yīng)用程序該 TCP 連接出問(wèn)題了,于是客戶(hù)端的 TCP 連接就會(huì)斷開(kāi)。

那 TCP 的數(shù)據(jù)報(bào)文具體重傳幾次呢?

在 Linux 系統(tǒng)中,提供了一個(gè)叫 tcp_retries2 配置項(xiàng),默認(rèn)值是 15,如下圖:

這個(gè)內(nèi)核參數(shù)是控制,在 TCP 連接建立的情況下,超時(shí)重傳的最大次數(shù)。

不過(guò) tcp_retries2 設(shè)置了 15 次,并不代表 TCP 超時(shí)重傳了 15 次才會(huì)通知應(yīng)用程序終止該 TCP 連接,內(nèi)核會(huì)根據(jù) tcp_retries2 設(shè)置的值,計(jì)算出一個(gè) timeout如果 tcp_retries2 =15,那么計(jì)算得到的 timeout = 924600 ms),如果重傳間隔超過(guò)這個(gè) timeout,則認(rèn)為超過(guò)了閾值,就會(huì)停止重傳,然后就會(huì)斷開(kāi) TCP 連接。

在發(fā)生超時(shí)重傳的過(guò)程中,每一輪的超時(shí)時(shí)間(RTO)都是倍數(shù)增長(zhǎng)的,比如如果第一輪 RTO 是 200 毫秒,那么第二輪 RTO 是 400 毫秒,第三輪 RTO 是 800 毫秒,以此類(lèi)推。

而 RTO 是基于 RTT(一個(gè)包的往返時(shí)間) 來(lái)計(jì)算的,如果 RTT 較大,那么計(jì)算出來(lái)的 RTO 就越大,那么經(jīng)過(guò)幾輪重傳后,很快就達(dá)到了上面的 timeout 值了。

舉個(gè)例子,如果 tcp_retries2 =15,那么計(jì)算得到的 timeout = 924600 ms,如果重傳總間隔時(shí)長(zhǎng)達(dá)到了 timeout 就會(huì)停止重傳,然后就會(huì)斷開(kāi) TCP 連接:

  • 如果 RTT 比較小,那么 RTO 初始值就約等于下限 200ms,也就是第一輪的超時(shí)時(shí)間是 200 毫秒,由于 timeout 總時(shí)長(zhǎng)是 924600 ms,表現(xiàn)出來(lái)的現(xiàn)象剛好就是重傳了 15 次,超過(guò)了 timeout 值,從而斷開(kāi) TCP 連接
  • 如果 RTT 比較大,假設(shè) RTO 初始值計(jì)算得到的是 1000 ms,也就是第一輪的超時(shí)時(shí)間是 1 秒,那么根本不需要重傳 15 次,重傳總間隔就會(huì)超過(guò) 924600 ms。

最小 RTO 和最大 RTO 是在 Linux 內(nèi)核中定義好了:

#define TCP_RTO_MAX ((unsigned)(120*HZ)) #define TCP_RTO_MIN ((unsigned)(HZ/5)) 

Linux 2.6+ 使用 1000 毫秒的 HZ,因此TCP_RTO_MIN約為 200 毫秒,TCP_RTO_MAX約為 120 秒。

如果tcp_retries設(shè)置為15,且  RTT 比較小,那么 RTO 初始值就約等于下限 200ms,這意味著它需要 924.6 秒才能將斷開(kāi)的 TCP 連接通知給上層(即應(yīng)用程序),每一輪的 RTO 增長(zhǎng)關(guān)系如下表格:

服務(wù)端主機(jī)宕機(jī)后,如果客戶(hù)端一直不發(fā)數(shù)據(jù)

在服務(wù)端主機(jī)發(fā)送宕機(jī)后,如果客戶(hù)端一直不發(fā)送數(shù)據(jù),那么還得看是否開(kāi)啟了 TCP keepalive 機(jī)制 (TCP ?;顧C(jī)制)。

如果沒(méi)有開(kāi)啟 TCP keepalive 機(jī)制,在服務(wù)端主機(jī)發(fā)送宕機(jī)后,如果客戶(hù)端一直不發(fā)送數(shù)據(jù),那么客戶(hù)端的 TCP 連接將一直保持存在,所以我們可以得知一個(gè)點(diǎn),在沒(méi)有使用 TCP ?;顧C(jī)制,且雙方不傳輸數(shù)據(jù)的情況下,一方的 TCP 連接處在 ESTABLISHED 狀態(tài)時(shí),并不代表另一方的 TCP 連接還一定是正常的。

而如果開(kāi)啟了 TCP keepalive 機(jī)制,在服務(wù)端主機(jī)發(fā)送宕機(jī)后,即使客戶(hù)端一直不發(fā)送數(shù)據(jù),在持續(xù)一段時(shí)間后,TCP 就會(huì)發(fā)送探測(cè)報(bào)文,探測(cè)服務(wù)端是否存活:

  • 如果對(duì)端是正常工作的。當(dāng) TCP ?;畹奶綔y(cè)報(bào)文發(fā)送給對(duì)端, 對(duì)端會(huì)正常響應(yīng),這樣 TCP ?;顣r(shí)間會(huì)被重置,等待下一個(gè) TCP ?;顣r(shí)間的到來(lái)。
  • 如果對(duì)端主機(jī)崩潰,或?qū)Χ擞捎谄渌驅(qū)е聢?bào)文不可達(dá)。當(dāng) TCP ?;畹奶綔y(cè)報(bào)文發(fā)送給對(duì)端后,石沉大海,沒(méi)有響應(yīng),連續(xù)幾次,達(dá)到?;钐綔y(cè)次數(shù)后,TCP 會(huì)報(bào)告該 TCP 連接已經(jīng)死亡。

所以,TCP keepalive 機(jī)制可以在雙方?jīng)]有數(shù)據(jù)交互的情況,通過(guò)探測(cè)報(bào)文,來(lái)確定對(duì)方的 TCP 連接是否存活。

TCP keepalive 機(jī)制具體是怎么樣的?

TCP keepalive 機(jī)制機(jī)制的原理是這樣的:

定義一個(gè)時(shí)間段,在這個(gè)時(shí)間段內(nèi),如果沒(méi)有任何連接相關(guān)的活動(dòng),TCP ?;顧C(jī)制會(huì)開(kāi)始作用,每隔一個(gè)時(shí)間間隔,發(fā)送一個(gè)探測(cè)報(bào)文,該探測(cè)報(bào)文包含的數(shù)據(jù)非常少,如果連續(xù)幾個(gè)探測(cè)報(bào)文都沒(méi)有得到響應(yīng),則認(rèn)為當(dāng)前的 TCP 連接已經(jīng)死亡,系統(tǒng)內(nèi)核將錯(cuò)誤信息通知給上層應(yīng)用程序。

在 Linux 內(nèi)核可以有對(duì)應(yīng)的參數(shù)可以設(shè)置?;顣r(shí)間、?;钐綔y(cè)的次數(shù)、?;钐綔y(cè)的時(shí)間間隔,以下都為默認(rèn)值:

net.ipv4.tcp_keepalive_time=7200
net.ipv4.tcp_keepalive_intvl=75  
net.ipv4.tcp_keepalive_probes=9

每個(gè)參數(shù)的意思,具體如下:

  • tcp_keepalive_time=7200:表示?;顣r(shí)間是 7200 秒(2小時(shí)),也就 2 小時(shí)內(nèi)如果沒(méi)有任何連接相關(guān)的活動(dòng),則會(huì)啟動(dòng)?;顧C(jī)制
  • tcp_keepalive_intvl=75:表示每次檢測(cè)間隔 75 秒;
  • tcp_keepalive_probes=9:表示檢測(cè) 9 次無(wú)響應(yīng),認(rèn)為對(duì)方是不可達(dá)的,從而中斷本次的連接。

也就是說(shuō)在 Linux 系統(tǒng)中,最少需要經(jīng)過(guò) 2 小時(shí) 11 分 15 秒才可以發(fā)現(xiàn)一個(gè)「死亡」連接。

注意,應(yīng)用程序如果想使用 TCP 保活機(jī)制,需要通過(guò) socket 接口設(shè)置 SO_KEEPALIVE選項(xiàng)才能夠生效,如果沒(méi)有設(shè)置,那么就無(wú)法使用 TCP ?;顧C(jī)制。

TCP keepalive 機(jī)制探測(cè)的時(shí)間也太長(zhǎng)了吧?

對(duì)的,是有點(diǎn)長(zhǎng)。

TCP keepalive 是 TCP 層(內(nèi)核態(tài)) 實(shí)現(xiàn)的,它是給所有基于 TCP 傳輸協(xié)議的程序一個(gè)兜底的方案。

實(shí)際上,我們應(yīng)用層可以自己實(shí)現(xiàn)一套探測(cè)機(jī)制,可以在較短的時(shí)間內(nèi),探測(cè)到對(duì)方是否存活。

比如,web 服務(wù)軟件一般都會(huì)提供 keepalive_timeout參數(shù),用來(lái)指定 HTTP 長(zhǎng)連接的超時(shí)時(shí)間。如果設(shè)置了 HTTP 長(zhǎng)連接的超時(shí)時(shí)間是 60 秒,web 服務(wù)軟件就會(huì)啟動(dòng)一個(gè)定時(shí)器,如果客戶(hù)端在完后一個(gè) HTTP 請(qǐng)求后,在 60 秒內(nèi)都沒(méi)有再發(fā)起新的請(qǐng)求,定時(shí)器的時(shí)間一到,就會(huì)觸發(fā)回調(diào)函數(shù)來(lái)釋放該連接。

總結(jié)

如果「服務(wù)端掛掉」指的是「服務(wù)端進(jìn)程崩潰」,服務(wù)端的進(jìn)程在發(fā)生崩潰的時(shí)候,內(nèi)核會(huì)發(fā)送 FIN 報(bào)文,與客戶(hù)端進(jìn)行四次揮手。

但是,如果「服務(wù)端掛掉」指的是「服務(wù)端主機(jī)宕機(jī)」,那么是不會(huì)發(fā)生四次揮手的,具體后續(xù)會(huì)發(fā)生什么?還要看客戶(hù)端會(huì)不會(huì)發(fā)送數(shù)據(jù)?

  • 如果客戶(hù)端會(huì)發(fā)送數(shù)據(jù),由于服務(wù)端已經(jīng)不存在,客戶(hù)端的數(shù)據(jù)報(bào)文會(huì)超時(shí)重傳,當(dāng)重傳總間隔時(shí)長(zhǎng)達(dá)到一定閾值(內(nèi)核會(huì)根據(jù) tcp_retries2 設(shè)置的值計(jì)算出一個(gè)閾值)后,會(huì)斷開(kāi) TCP 連接;
  • 如果客戶(hù)端一直不會(huì)發(fā)送數(shù)據(jù),再看客戶(hù)端有沒(méi)有開(kāi)啟 TCP keepalive 機(jī)制?
    • 如果有開(kāi)啟,客戶(hù)端在一段時(shí)間沒(méi)有進(jìn)行數(shù)據(jù)交互時(shí),會(huì)觸發(fā) TCP keepalive 機(jī)制,探測(cè)對(duì)方是否存在,如果探測(cè)到對(duì)方已經(jīng)消亡,則會(huì)斷開(kāi)自身的 TCP 連接;
    • 如果沒(méi)有開(kāi)啟,客戶(hù)端的 TCP 連接會(huì)一直存在,并且一直保持在 ESTABLISHED 狀態(tài)。

還有另外一個(gè)很有意思的問(wèn)題:「拔掉網(wǎng)線幾秒,再插回去,原本的 TCP 連接還存在嗎?」,之前我也寫(xiě)過(guò),可以參考這篇:拔掉網(wǎng)線幾秒,原本的 TCP 連接還存在嗎?

完!

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專(zhuān)欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車(chē)的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車(chē)技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車(chē)工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車(chē)。 SODA V工具的開(kāi)發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車(chē) 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來(lái)越多用戶(hù)希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來(lái)越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開(kāi)幕式在貴陽(yáng)舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱(chēng),數(shù)字世界的話語(yǔ)權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競(jìng)爭(zhēng)力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營(yíng)商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡(jiǎn)稱(chēng)"軟通動(dòng)力")與長(zhǎng)三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉