靈魂拷問 TCP ,你要投降了嗎?
大家好,我是小林。
之前寫過 TCP 三次握手和四次揮手過程中,途中某一步的報(bào)文丟失會(huì)發(fā)生什么的文章。
當(dāng)時(shí),主要是文字描述,可能不太好記憶,所以我針對每一步的異常情況,重新畫了圖,方便大家理解和記憶。
發(fā)車!
TCP 三次握手丟包情況
第一次握手丟失了,會(huì)發(fā)生什么?
當(dāng)客戶端想和服務(wù)端建立 TCP 連接的時(shí)候,首先第一個(gè)發(fā)的就是 SYN 報(bào)文,然后進(jìn)入到SYN_SENT狀態(tài)。
在這之后,如果客戶端遲遲收不到服務(wù)端的 SYN-ACK 報(bào)文(第二次握手),就會(huì)觸發(fā)「超時(shí)重傳」機(jī)制,重傳 SYN 報(bào)文,而且重傳的 SYN 報(bào)文的序列號都是一樣的。
不同版本的操作系統(tǒng)可能超時(shí)時(shí)間不同,有的 1 秒的,也有 3 秒的,這個(gè)超時(shí)時(shí)間是寫死在內(nèi)核里的,如果想要更改則需要重新編譯內(nèi)核,比較麻煩。
當(dāng)客戶端在 1 秒后沒收到服務(wù)端的 SYN-ACK 報(bào)文后,客戶端就會(huì)重發(fā) SYN 報(bào)文,那到底重發(fā)幾次呢?
在 Linux 里,客戶端的 SYN 報(bào)文最大重傳次數(shù)由tcp_syn_retries內(nèi)核參數(shù)控制,這個(gè)參數(shù)是可以自定義的,默認(rèn)值一般是 5。
# cat /proc/sys/net/ipv4/tcp_syn_retries 5
通常,第一次超時(shí)重傳是在 1 秒后,第二次超時(shí)重傳是在 2 秒,第三次超時(shí)重傳是在 4 秒后,第四次超時(shí)重傳是在 8 秒后,第五次是在超時(shí)重傳 16 秒后。沒錯(cuò),每次超時(shí)的時(shí)間是上一次的 2 倍。
當(dāng)?shù)谖宕纬瑫r(shí)重傳后,會(huì)繼續(xù)等待 32 秒,如果服務(wù)端仍然沒有回應(yīng) ACK,客戶端就不再發(fā)送 SYN 包,然后斷開 TCP 連接。
所以,總耗時(shí)是 1+2+4+8+16+32=63 秒,大約 1 分鐘左右。
舉個(gè)例子,假設(shè) tcp_syn_retries 參數(shù)值為 3,那么當(dāng)客戶端的 SYN 報(bào)文一直在網(wǎng)絡(luò)中丟失時(shí),會(huì)發(fā)生下圖的過程:
具體過程:
- 當(dāng)客戶端超時(shí)重傳 3 次 SYN 報(bào)文后,由于 tcp_syn_retries 為 3,已達(dá)到最大重傳次數(shù),于是再等待一段時(shí)間(時(shí)間為上一次超時(shí)時(shí)間的 2 倍),如果還是沒能收到服務(wù)端的第二次握手(SYN-ACK 報(bào)文),那么客戶端就會(huì)斷開連接。
第二次握手丟失了,會(huì)發(fā)生什么?
當(dāng)服務(wù)端收到客戶端的第一次握手后,就會(huì)回 SYN-ACK 報(bào)文給客戶端,這個(gè)就是第二次握手,此時(shí)服務(wù)端會(huì)進(jìn)入SYN_RCVD狀態(tài)。
第二次握手的SYN-ACK報(bào)文其實(shí)有兩個(gè)目的 :
- 第二次握手里的 ACK, 是對第一次握手的確認(rèn)報(bào)文;
- 第二次握手里的 SYN,是服務(wù)端發(fā)起建立 TCP 連接的報(bào)文;
所以,如果第二次握手丟了,就會(huì)發(fā)生比較有意思的事情,具體會(huì)怎么樣呢?
因?yàn)榈诙挝帐謭?bào)文里是包含對客戶端的第一次握手的 ACK 確認(rèn)報(bào)文,所以,如果客戶端遲遲沒有收到第二次握手,那么客戶端就覺得可能自己的 SYN 報(bào)文(第一次握手)丟失了,于是客戶端就會(huì)觸發(fā)超時(shí)重傳機(jī)制,重傳 SYN 報(bào)文。
然后,因?yàn)榈诙挝帐种邪?wù)端的 SYN 報(bào)文,所以當(dāng)客戶端收到后,需要給服務(wù)端發(fā)送 ACK 確認(rèn)報(bào)文(第三次握手),服務(wù)端才會(huì)認(rèn)為該 SYN 報(bào)文被客戶端收到了。
那么,如果第二次握手丟失了,服務(wù)端就收不到第三次握手,于是服務(wù)端這邊會(huì)觸發(fā)超時(shí)重傳機(jī)制,重傳 SYN-ACK 報(bào)文。
在 Linux 下,SYN-ACK 報(bào)文的最大重傳次數(shù)由tcp_synack_retries內(nèi)核參數(shù)決定,默認(rèn)值是 5。
# cat /proc/sys/net/ipv4/tcp_synack_retries 5
因此,當(dāng)?shù)诙挝帐謥G失了,客戶端和服務(wù)端都會(huì)重傳:
- 客戶端會(huì)重傳 SYN 報(bào)文,也就是第一次握手,最大重傳次數(shù)由tcp_syn_retries內(nèi)核參數(shù)決定;
- 服務(wù)端會(huì)重傳 SYN-ACK 報(bào)文,也就是第二次握手,最大重傳次數(shù)由tcp_synack_retries內(nèi)核參數(shù)決定。
舉個(gè)例子,假設(shè) tcp_syn_retries 參數(shù)值為 1,tcp_synack_retries 參數(shù)值為 2,那么當(dāng)?shù)诙挝帐忠恢眮G失時(shí),發(fā)生的過程如下圖:
具體過程:
- 當(dāng)客戶端超時(shí)重傳 1 次 SYN 報(bào)文后,由于 tcp_syn_retries 為 1,已達(dá)到最大重傳次數(shù),于是再等待一段時(shí)間(時(shí)間為上一次超時(shí)時(shí)間的 2 倍),如果還是沒能收到服務(wù)端的第二次握手(SYN-ACK 報(bào)文),那么客戶端就會(huì)斷開連接。
- 當(dāng)服務(wù)端超時(shí)重傳 2 次 SYN-ACK 報(bào)文后,由于 tcp_synack_retries 為 2,已達(dá)到最大重傳次數(shù),于是再等待一段時(shí)間(時(shí)間為上一次超時(shí)時(shí)間的 2 倍),如果還是沒能收到客戶端的第三次握手(ACK 報(bào)文),那么服務(wù)端就會(huì)斷開連接。
第三次握手丟失了,會(huì)發(fā)生什么?
客戶端收到服務(wù)端的 SYN-ACK 報(bào)文后,就會(huì)給服務(wù)端回一個(gè) ACK 報(bào)文,也就是第三次握手,此時(shí)客戶端狀態(tài)進(jìn)入到ESTABLISH狀態(tài)。
因?yàn)檫@個(gè)第三次握手的 ACK 是對第二次握手的 SYN 的確認(rèn)報(bào)文,所以當(dāng)?shù)谌挝帐謥G失了,如果服務(wù)端那一方遲遲收不到這個(gè)確認(rèn)報(bào)文,就會(huì)觸發(fā)超時(shí)重傳機(jī)制,重傳 SYN-ACK 報(bào)文,直到收到第三次握手,或者達(dá)到最大重傳次數(shù)。
注意,ACK 報(bào)文是不會(huì)有重傳的,當(dāng) ACK 丟失了,就由對方重傳對應(yīng)的報(bào)文。
舉個(gè)例子,假設(shè) tcp_synack_retries 參數(shù)值為 2,那么當(dāng)?shù)谌挝帐忠恢眮G失時(shí),發(fā)生的過程如下圖:
具體過程:
- 當(dāng)服務(wù)端超時(shí)重傳 2 次 SYN-ACK 報(bào)文后,由于 tcp_synack_retries 為 2,已達(dá)到最大重傳次數(shù),于是再等待一段時(shí)間(時(shí)間為上一次超時(shí)時(shí)間的 2 倍),如果還是沒能收到客戶端的第三次握手(ACK 報(bào)文),那么服務(wù)端就會(huì)斷開連接。
TCP 四次揮手丟包情況
第一次揮手丟失了,會(huì)發(fā)生什么?
當(dāng)客戶端(主動(dòng)關(guān)閉方)調(diào)用 close 函數(shù)后,就會(huì)向服務(wù)端發(fā)送 FIN 報(bào)文,試圖與服務(wù)端斷開連接,此時(shí)客戶端的連接進(jìn)入到FIN_WAIT_1狀態(tài)。
正常情況下,如果能及時(shí)收到服務(wù)端(被動(dòng)關(guān)閉方)的 ACK,則會(huì)很快變?yōu)镕IN_WAIT2狀態(tài)。
如果第一次揮手丟失了,那么客戶端遲遲收不到被動(dòng)方的 ACK 的話,也就會(huì)觸發(fā)超時(shí)重傳機(jī)制,重傳 FIN 報(bào)文,重發(fā)次數(shù)由tcp_orphan_retries參數(shù)控制。
當(dāng)客戶端重傳 FIN 報(bào)文的次數(shù)超過tcp_orphan_retries后,就不再發(fā)送 FIN 報(bào)文,則會(huì)在等待一段時(shí)間(時(shí)間為上一次超時(shí)時(shí)間的 2 倍),如果還是沒能收到第二次揮手,那么直接進(jìn)入到close狀態(tài)。
舉個(gè)例子,假設(shè) tcp_orphan_retries 參數(shù)值為 3,當(dāng)?shù)谝淮螕]手一直丟失時(shí),發(fā)生的過程如下圖:
具體過程:
- 當(dāng)客戶端超時(shí)重傳 3 次 FIN 報(bào)文后,由于 tcp_orphan_retries 為 3,已達(dá)到最大重傳次數(shù),于是再等待一段時(shí)間(時(shí)間為上一次超時(shí)時(shí)間的 2 倍),如果還是沒能收到服務(wù)端的第二次揮手(ACK報(bào)文),那么客戶端就會(huì)斷開連接。
第二次揮手丟失了,會(huì)發(fā)生什么?
當(dāng)服務(wù)端收到客戶端的第一次揮手后,就會(huì)先回一個(gè) ACK 確認(rèn)報(bào)文,此時(shí)服務(wù)端的連接進(jìn)入到CLOSE_WAIT狀態(tài)。
在前面我們也提了,ACK 報(bào)文是不會(huì)重傳的,所以如果服務(wù)端的第二次揮手丟失了,客戶端就會(huì)觸發(fā)超時(shí)重傳機(jī)制,重傳 FIN 報(bào)文,直到收到服務(wù)端的第二次揮手,或者達(dá)到最大的重傳次數(shù)。
舉個(gè)例子,假設(shè) tcp_orphan_retries 參數(shù)值為 2,當(dāng)?shù)诙螕]手一直丟失時(shí),發(fā)生的過程如下圖:
具體過程:
- 當(dāng)客戶端超時(shí)重傳 2 次 FIN 報(bào)文后,由于 tcp_orphan_retries 為 2,已達(dá)到最大重傳次數(shù),于是再等待一段時(shí)間(時(shí)間為上一次超時(shí)時(shí)間的 2 倍),如果還是沒能收到服務(wù)端的第二次揮手(ACK 報(bào)文),那么客戶端就會(huì)斷開連接。
這里提一下,當(dāng)客戶端收到第二次揮手,也就是收到服務(wù)端發(fā)送的 ACK 報(bào)文后,客戶端就會(huì)處于FIN_WAIT2狀態(tài),在這個(gè)狀態(tài)需要等服務(wù)端發(fā)送第三次揮手,也就是服務(wù)端的 FIN 報(bào)文。
對于 close 函數(shù)關(guān)閉的連接,由于無法再發(fā)送和接收數(shù)據(jù),所以FIN_WAIT2狀態(tài)不可以持續(xù)太久,而tcp_fin_timeout控制了這個(gè)狀態(tài)下連接的持續(xù)時(shí)長,默認(rèn)值是 60 秒。
這意味著對于調(diào)用 close 關(guān)閉的連接,如果在 60 秒后還沒有收到 FIN 報(bào)文,客戶端(主動(dòng)關(guān)閉方)的連接就會(huì)直接關(guān)閉,如下圖:
但是注意,如果主動(dòng)關(guān)閉方使用 shutdown 函數(shù)關(guān)閉連接,指定了只關(guān)閉發(fā)送方向,而接收方向并沒有關(guān)閉,那么意味著主動(dòng)關(guān)閉方還是可以接收數(shù)據(jù)的。
此時(shí),如果主動(dòng)關(guān)閉方一直沒收到第三次揮手,那么主動(dòng)關(guān)閉方的連接將會(huì)一直處于FIN_WAIT2狀態(tài)(tcp_fin_timeout無法控制 shutdown 關(guān)閉的連接)。如下圖:
第三次揮手丟失了,會(huì)發(fā)生什么?
當(dāng)服務(wù)端(被動(dòng)關(guān)閉方)收到客戶端(主動(dòng)關(guān)閉方)的 FIN 報(bào)文后,內(nèi)核會(huì)自動(dòng)回復(fù) ACK,同時(shí)連接處于CLOSE_WAIT狀態(tài),顧名思義,它表示等待應(yīng)用進(jìn)程調(diào)用 close 函數(shù)關(guān)閉連接。
此時(shí),內(nèi)核是沒有權(quán)利替代進(jìn)程關(guān)閉連接,必須由進(jìn)程主動(dòng)調(diào)用 close 函數(shù)來觸發(fā)服務(wù)端發(fā)送 FIN 報(bào)文。
服務(wù)端處于 CLOSE_WAIT 狀態(tài)時(shí),調(diào)用了 close 函數(shù),內(nèi)核就會(huì)發(fā)出 FIN 報(bào)文,同時(shí)連接進(jìn)入 LAST_ACK 狀態(tài),等待客戶端返回 ACK 來確認(rèn)連接關(guān)閉。
如果遲遲收不到這個(gè) ACK,服務(wù)端就會(huì)重發(fā) FIN 報(bào)文,重發(fā)次數(shù)仍然由tcp_orphan_retries 參數(shù)控制,這與客戶端重發(fā) FIN 報(bào)文的重傳次數(shù)控制方式是一樣的。
舉個(gè)例子,假設(shè)tcp_orphan_retries = 3,當(dāng)?shù)谌螕]手一直丟失時(shí),發(fā)生的過程如下圖:
具體過程:
- 當(dāng)服務(wù)端重傳第三次揮手報(bào)文的次數(shù)達(dá)到了 3 次后,由于 tcp_orphan_retries 為 3,達(dá)到了重傳最大次數(shù),于是再等待一段時(shí)間(時(shí)間為上一次超時(shí)時(shí)間的 2 倍),如果還是沒能收到客戶端的第四次揮手(ACK報(bào)文),那么服務(wù)端就會(huì)斷開連接。
- 客戶端因?yàn)槭峭ㄟ^ close 函數(shù)關(guān)閉連接的,處于 FIN_WAIT_2 狀態(tài)是有時(shí)長限制的,如果 tcp_fin_timeout 時(shí)間內(nèi)還是沒能收到服務(wù)端的第三次揮手(FIN 報(bào)文),那么客戶端就會(huì)斷開連接。
第四次揮手丟失了,會(huì)發(fā)生什么?
當(dāng)客戶端收到服務(wù)端的第三次揮手的 FIN 報(bào)文后,就會(huì)回 ACK 報(bào)文,也就是第四次揮手,此時(shí)客戶端連接進(jìn)入TIME_WAIT狀態(tài)。
在 Linux 系統(tǒng),TIME_WAIT 狀態(tài)會(huì)持續(xù) 2MSL 后才會(huì)進(jìn)入關(guān)閉狀態(tài)。
然后,服務(wù)端(被動(dòng)關(guān)閉方)沒有收到 ACK 報(bào)文前,還是處于 LAST_ACK 狀態(tài)。
如果第四次揮手的 ACK 報(bào)文沒有到達(dá)服務(wù)端,服務(wù)端就會(huì)重發(fā) FIN 報(bào)文,重發(fā)次數(shù)仍然由前面介紹過的tcp_orphan_retries參數(shù)控制。
舉個(gè)例子,假設(shè) tcp_orphan_retries 為 2,當(dāng)?shù)谒拇螕]手一直丟失時(shí),發(fā)生的過程如下:
具體過程:
- 當(dāng)服務(wù)端重傳第三次揮手報(bào)文達(dá)到 2 時(shí),由于 tcp_orphan_retries 為 2, 達(dá)到了最大重傳次數(shù),于是再等待一段時(shí)間(時(shí)間為上一次超時(shí)時(shí)間的 2 倍),如果還是沒能收到客戶端的第四次揮手(ACK 報(bào)文),那么服務(wù)端就會(huì)斷開連接。
- 客戶端在收到第三次揮手后,就會(huì)進(jìn)入 TIME_WAIT 狀態(tài),開啟時(shí)長為 2MSL 的定時(shí)器,如果途中再次收到第三次揮手(FIN 報(bào)文)后,就會(huì)重置定時(shí)器,當(dāng)?shù)却?2MSL 時(shí)長后,客戶端就會(huì)斷開連接。
完!
怎么樣,這下很清晰了吧