level-ip之ip數(shù)據(jù)包接口剖析
閱讀本文需要對level-ip的整體架構(gòu)有所了解,如果讀者尚未接觸過level-ip,請先閱讀下面文章:
分享一款Linux平臺下的tcp協(xié)議棧!超級透徹!
level-ip之虛擬網(wǎng)卡接口封裝
level-ip之以太網(wǎng)數(shù)據(jù)接口封裝
請根據(jù)上述文章中的指引獲取leve-ip的全部源碼,并且嘗試在任意Linux發(fā)行版本上編譯運行。
知識回顧
在前面的文章中,我們已經(jīng)介紹了以太網(wǎng)卡的封裝接口,其中主要是以下幾個接口:netdev_init():初始化網(wǎng)卡的ip地址、mac地址和mtu的值
netdev_receive():發(fā)送以太網(wǎng)幀數(shù)據(jù)
netdev_transmit():發(fā)送以太網(wǎng)幀數(shù)據(jù)
這幾個接口是我們封裝IP數(shù)據(jù)接口的基礎(chǔ),最好還是先搞明白原理。
網(wǎng)際協(xié)議(IP)介紹
IP是整個TCP/IP協(xié)議的核心,網(wǎng)絡(luò)層協(xié)議,如UDP和TCP都需要IP提供的服務(wù)。而像ICMP和IGMP等網(wǎng)絡(luò)層協(xié)議也基于IP協(xié)議來傳輸協(xié)議數(shù)據(jù)。如下圖:常見的廣域網(wǎng)路由器就工作在IP層,它們負責將IP數(shù)據(jù)報從源主機送到目的主機,主機間的區(qū)分是通過IP地址來實現(xiàn)的。主機上的IP協(xié)議需要完成工作有非常多,最基本的就是數(shù)據(jù)報的發(fā)送和遞交,在特殊情況下它還要完成數(shù)據(jù)報的分片和重裝功能,有時候話要完成數(shù)據(jù)報的轉(zhuǎn)發(fā)等工作。
IP報文組織結(jié)構(gòu)
ip數(shù)據(jù)幀位于以太網(wǎng)數(shù)據(jù)幀的上一層,我們先來了解一下它的報文結(jié)構(gòu),如下圖:我們來詳細學習一下,里面每一個字段所代表的具體含義:
- 版本號:IP協(xié)議版本信息,例如對于IPV4,該值為4,對于IPV6,該值為6
- 首部長度:以字為單位,對于不含任何選項字段的IP首部,該值為5。
- 服務(wù)類型字段:主要用來描述當前IP數(shù)據(jù)報急需的服務(wù)類型,如最小延時、最大吞吐量、最高可靠性、最小費用等等。路由器在轉(zhuǎn)發(fā)數(shù)據(jù)報時,可以根據(jù)這個字段的值來為數(shù)據(jù)包選擇最合理的路由路徑。
- 總長度:描述了整個IP數(shù)據(jù)報的總字節(jié)數(shù)。理論上說,IP數(shù)據(jù)報的總長度最大可達65535字節(jié)。但是一般以太網(wǎng)底層鏈路允許的最長數(shù)據(jù)為1500字節(jié),因此當IP數(shù)據(jù)包過大的時候,需要對IP進行分片,然后目的主機要對IP報文重裝。
- 標識字段:當IP數(shù)據(jù)包發(fā)生分片時,這個標識記錄每個IP分片的序號,目的主機需要根據(jù)這個字段對其進行重裝。
- 標志和分片偏移量:標志該ip數(shù)據(jù)報在轉(zhuǎn)發(fā)過程是否允許分片以及是否是最后一個分片。分片偏移量記錄該分片ip數(shù)據(jù)報在整個數(shù)據(jù)報中的相對位置。
- 生存時間(TTL):表示該IP數(shù)據(jù)報最多能被轉(zhuǎn)發(fā)的次數(shù),每轉(zhuǎn)發(fā)一次,該值減1。
- 協(xié)議:表示該ip數(shù)據(jù)報中的數(shù)據(jù)來自哪個上層協(xié)議。
- 首部校驗和:針對ip首部做校驗。
- 源IP地址:本地主機ip
- 目的IP地址:待接受數(shù)據(jù)的主機ip
- 數(shù)據(jù)區(qū):非必需,不同的上層協(xié)議會選擇性地使用該字段
構(gòu)造ip首部
接下來,我們使用結(jié)構(gòu)體來定義ip數(shù)據(jù)首部,該結(jié)構(gòu)體定義在level-ip的include/ip.h文件中:這兩個結(jié)構(gòu)體的成員變量,與我們剛才介紹的ARP報文的每個字段是一一對應(yīng)的,這里不再重復(fù)解析。
IP數(shù)據(jù)報發(fā)送接口
IP數(shù)據(jù)的發(fā)送接口ip_output,會被上一層傳輸層協(xié)議接口調(diào)用,如UDP、TCP、ICMP等。在level-ip中,該接口函數(shù)保存在src\ip_output.c文件中。如下圖:第6行:搜索路由表,找到合適的網(wǎng)卡來進行ip數(shù)據(jù)的發(fā)送,發(fā)送的ip數(shù)據(jù)報需要與網(wǎng)卡處于同一網(wǎng)段。
第14行:把路由表中記錄的網(wǎng)卡設(shè)備記錄在sk_buff結(jié)構(gòu)體中,該結(jié)構(gòu)體負責網(wǎng)絡(luò)數(shù)據(jù)發(fā)送的全部過程。
第15行:把路由也記錄在sk_buff結(jié)構(gòu)體中。
第17行:把sk_buff結(jié)構(gòu)體中用來裝載數(shù)據(jù)的區(qū)域,預(yù)留出ip數(shù)據(jù)包的首部
第19~39行:填充ip數(shù)據(jù)包的首部
第40行:填充ip首部的校驗信息
第42行:發(fā)送數(shù)據(jù)報出去,在dst_neigh_output()函數(shù)中,將進一步調(diào)用以太網(wǎng)卡接口來進行數(shù)據(jù)的發(fā)送。
我們進一步來分析一下dst_neigh_output()函數(shù),在這里會把ip數(shù)據(jù)報和arp數(shù)據(jù)的發(fā)送聯(lián)合使用。如下圖:
第15行:從arp緩存表中查詢目標ip對應(yīng)的以太網(wǎng)地址
第17~23行:如果arp緩存表記錄了該ip地址對應(yīng)的以太網(wǎng)地址,那么直接調(diào)用以太網(wǎng)數(shù)據(jù)包發(fā)送接口來進行數(shù)據(jù)發(fā)送。反之則調(diào)用arp查詢接口,廣播發(fā)送arp幀。
ip數(shù)據(jù)報接收接口
ip數(shù)據(jù)接收接口為ip_rcv()函數(shù)。該函數(shù)在以太網(wǎng)數(shù)據(jù)幀讀取接口netdev_receive()函數(shù)中調(diào)用。該函數(shù)保存在src\ip_input.c文件中,我們來了解一下這個函數(shù),如下圖:第3行:從sk_buff中讀取ip首部信息
第6行:判斷ip協(xié)議版本是否為ipv4,此處只支持ipv4
第7行:判斷ip的首部的字節(jié)長度是否小于5字節(jié)
第16行,如果ip數(shù)據(jù)報的生存時間為0,說明已被廢棄,不再處理
第22行:檢查ip首部的檢驗。
第31行:把ip地址等字段進行小端轉(zhuǎn)換
第35~45行:判斷該ip協(xié)議的上層類型為ICMP還是TCP,轉(zhuǎn)交數(shù)據(jù)包給上層即可。
總結(jié)
通過我們這邊文章,我們已經(jīng)明白了IP協(xié)議的報文結(jié)構(gòu)、ip數(shù)據(jù)包的發(fā)送、IP數(shù)據(jù)包的接收處理等等。從接收函數(shù)的分析過程可知,level-ip并不支持ip數(shù)據(jù)包的分片和重裝,因此也就無法支持UDP協(xié)議進行大數(shù)據(jù)報的發(fā)送。