本文從Linux內核幾種軟中斷機制相互關系和發(fā)展沿革入手,分析了這些機制的實現(xiàn)方法,給出了它們的基本用法。
軟中斷概況
軟中斷是利用硬件中斷的概念,用軟件方式進行模擬,實現(xiàn)宏觀上的異步執(zhí)行效果。很多情況下,軟中斷和"信號"有些類似,同時,軟中斷又是和硬中斷相對應的,"硬中斷是外部設備對CPU的中斷","軟中斷通常是硬中斷服務程序對內核的中斷","信號則是由內核(或其他進程)對某個進程的中斷"(《Linux內核源代碼情景分析》第三章)。軟中斷的一種典型應用就是所謂的"下半部"(bottom half),它的得名來自于將硬件中斷處理分離成"上半部"和"下半部"兩個階段的機制:上半部在屏蔽中斷的上下文中運行,用于完成關鍵性的處理動作;而下半部則相對來說并不是非常緊急的,通常還是比較耗時的,因此由系統(tǒng)自行安排運行時機,不在中斷服務上下文中執(zhí)行。bottom half的應用也是激勵內核發(fā)展出目前的軟中斷機制的原因,因此,我們先從bottom half的實現(xiàn)開始。
bottom half
在Linux內核中,bottom half通常用"bh"表示,最初用于在特權級較低的上下文中完成中斷服務的非關鍵耗時動作,現(xiàn)在也用于一切可在低優(yōu)先級的上下文中執(zhí)行的異步動作。最早的bottom half實現(xiàn)是借用中斷向量表的方式,在目前的2.4.x內核中仍然可以看到:
static void (*bh_base[32])(void);/* kernel/softirq.c */
系統(tǒng)如此定義了一個函數(shù)指針數(shù)組,共有32個函數(shù)指針,采用數(shù)組索引來訪問,與此相對應的是一套函數(shù):
void init_bh(int nr,void (*routine)(void));
為第nr個函數(shù)指針賦值為routine。
void remove_bh(int nr);
動作與init_bh()相反,卸下nr函數(shù)指針。
void mark_bh(int nr);
標志第nr個bottom half可執(zhí)行了。
由于歷史的原因,bh_base各個函數(shù)指針位置大多有了預定義的意義,在v2.4.2內核里有這樣一個枚舉:
enum {TIMER_BH = 0,TQUEUE_BH,DIGI_BH,SERIAL_BH,RISCOM8_BH,SPECIALIX_BH,AURORA_BH,ESP_BH,SCSI_BH,IMMEDIATE_BH,CYCLADES_BH,CM206_BH,JS_BH,MACSERIAL_BH,ISICOM_BH };
并約定某個驅動使用某個bottom half位置,比如串口中斷就約定使用SERIAL_BH,現(xiàn)在我們用得多的主要是TIMER_BH、TQUEUE_BH和IMMEDIATE_BH,但語義已經(jīng)很不一樣了,因為整個bottom half的使用方式已經(jīng)很不一樣了,這三個函數(shù)僅僅是在接口上保持了向下兼容,在實現(xiàn)上一直都在隨著內核的軟中斷機制在變。現(xiàn)在,在2.4.x內核里,它用的是tasklet機制。
task queue
在介紹tasklet之前,有必要先看看出現(xiàn)得更早一些的task queue機制。顯而易見,原始的bottom half機制有幾個很大的局限,最重要的一個就是個數(shù)限制在32個以內,隨著系統(tǒng)硬件越來越多,軟中斷的應用范圍越來越大,這個數(shù)目顯然是不夠用的,而且,每個bottom half上只能掛接一個函數(shù),也是不夠用的。因此,在2.0.x內核里,已經(jīng)在用task queue(任務隊列)的辦法對其進行了擴充,這里使用的是2.4.2中的實現(xiàn)。
task queue是在系統(tǒng)隊列數(shù)據(jù)結構的基礎上建成的,以下即為task queue的數(shù)據(jù)結構,定義在include/linux/tqueue.h中:
struct tq_struct {struct list_head list;/* 鏈表結構 */unsigned long sync;/* 初識為0,入隊時原子的置1,以避免重復入隊 */void (*routine)(void *);/* 激活時調用的函數(shù) */void *data;/* routine(data) */};typedef struct list_head task_queue;
在使用時,按照下列步驟進行:
DECLARE_TASK_QUEUE(my_tqueue); /* 定義一個my_tqueue,實際上就是一個以tq_struct為元素的list_head隊列 */說明并定義一個tq_struct變量my_task;queue_task(&my_task,&my_tqueue); /* 將my_task注冊到my_tqueue中 */run_task_queue(&my_tqueue); /* 在適當?shù)臅r候手工啟動my_tqueue */大多數(shù)情況下,都沒有必要調用DECLARE_TASK_QUEUE()定義自己的task queue,因為系統(tǒng)已經(jīng)預定義了三個task queue:
tq_timer,由時鐘中斷服務程序啟動;tq_immediate,在中斷返回前以及schedule()函數(shù)中啟動;tq_disk,內存管理模塊內部使用。一般使用tq_immediate就可以完成大多數(shù)異步任務了。
run_task_queue(task_queue *list)函數(shù)可用于啟動list中掛接的所有task,可以手動調用,也可以掛接在上面提到的bottom half向量表中啟動。以run_task_queue()作為bh_base[nr]的函數(shù)指針,實際上就是擴充了每個bottom half的函數(shù)句柄數(shù),而對于系統(tǒng)預定義的tq_timer和tq_immediate的確是分別掛接在TQUEUE_BH和IMMEDIATE_BH上(注意,TIMER_BH沒有如此使用,但TQUEUE_BH也是在do_timer()中啟動的),從而可以用于擴充bottom half的個數(shù)。此時,不需要手工調用run_task_queue()(這原本就不合適),而只需調用mark_bh(IMMEDIATE_BH),讓bottom half機制在合適的時候調度它。
tasklet
由上看出,task queue以bottom half為基礎;而bottom half在v2.4.x中則以新引入的tasklet為實現(xiàn)基礎。
之所以引入tasklet,最主要的考慮是為了更好的支持SMP,提高SMP多個CPU的利用率:不同的tasklet可以同時運行于不同的CPU上。在它的源碼注釋中還說明了幾點特性,歸結為一點,就是:同一個tasklet只會在一個CPU上運行。
struct tasklet_struct{struct tasklet_struct *next;/* 隊列指針 */unsigned long state;/* tasklet的狀態(tài),按位操作,目前定義了兩個位的含義:TASKLET_STATE_SCHED(第0位)或TASKLET_STATE_RUN(第1位) */atomic_t count;/* 引用計數(shù),通常用1表示disabled */void (*func)(unsigned long);/* 函數(shù)指針 */unsigned long data;/* func(data) */};
把上面的結構與tq_struct比較,可以看出,tasklet擴充了一點功能,主要是state屬性,用于CPU間的同步。
tasklet的使用相當簡單:
定義一個處理函數(shù)void my_tasklet_func(unsigned long);DECLARE_TASKLET(my_tasklet,my_tasklet_func,data); /* 定義一個tasklet結構my_tasklet,與my_tasklet_func(data)函數(shù)相關聯(lián),相當于DECLARE_TASK_QUEUE() */tasklet_schedule(&my_tasklet); /* 登記my_tasklet,允許系統(tǒng)在適當?shù)臅r候進行調度運行,相當于queue_task(&my_task,&tq_immediate)和mark_bh(IMMEDIATE_BH) */可見tasklet的使用比task queue更簡單,而且,tasklet還能更好的支持SMP結構,因此,在新的2.4.x內核中,tasklet是建議的異步任務執(zhí)行機制。除了以上提到的使用步驟外,tasklet機制還提供了另外一些調用接口:
DECLARE_TASKLET_DISABLED(name,function,data); /* 和DECLARE_TASKLET()類似,不過即使被調度到也不會馬上運行,必須等到enable */
tasklet_enable(struct tasklet_struct *); /* tasklet使能 */
tasklet_disble(struct tasklet_struct *); /* 禁用tasklet,只要tasklet還沒運行,則會推遲到它被enable */
tasklet_init(struct tasklet_struct *,void (*func)(unsigned long),unsigned long); /* 類似DECLARE_TASKLET() */
tasklet_kill(struct tasklet_struct *); /* 清除指定tasklet的可調度位,即不允許調度該tasklet,但不做tasklet本身的清除 */
前面提到過,在2.4.x內核中,bottom half是利用tasklet機制實現(xiàn)的,它表現(xiàn)在所有的bottom half動作都以一類tasklet的形式運行,這類tasklet與我們一般使用的tasklet不同。
在2.4.x中,系統(tǒng)定義了兩個tasklet隊列的向量表,每個向量對應一個CPU(向量表大小為系統(tǒng)能支持的CPU最大個數(shù),SMP方式下目前2.4.2為32)組織成一個tasklet鏈表:
struct tasklet_head tasklet_vec[NR_CPUS] __cacheline_aligned;struct tasklet_head tasklet_hi_vec[NR_CPUS] __cacheline_aligned;
另外,對于32個bottom half,系統(tǒng)也定義了對應的32個tasklet結構:
struct tasklet_struct bh_task_vec[32];
在軟中斷子系統(tǒng)初始化時,這組tasklet的動作被初始化為bh_action(nr),而bh_action(nr)就會去調用bh_base[nr]的函數(shù)指針,從而與bottom half的語義掛鉤。mark_bh(nr)被實現(xiàn)為調用tasklet_hi_schedule(bh_tasklet_vec+nr),在這個函數(shù)中,bh_tasklet_vec[nr]將被掛接在tasklet_hi_vec[cpu]鏈上(其中cpu為當前cpu編號,也就是說哪個cpu提出了bottom half的請求,則在哪個cpu上執(zhí)行該請求),然后激發(fā)HI_SOFTIRQ軟中斷信號,從而在HI_SOFTIRQ的中斷響應中啟動運行。
tasklet_schedule(&my_tasklet)將把my_tasklet掛接到tasklet_vec[cpu]上,激發(fā)TASKLET_SOFTIRQ,在TASKLET_SOFTIRQ的中斷響應中執(zhí)行。HI_SOFTIRQ和TASKLET_SOFTIRQ是softirq子系統(tǒng)中的術語,下一節(jié)將對它做介紹。
softirq
從前面的討論可以看出,task queue基于bottom half,bottom half基于tasklet,而tasklet則基于softirq。
可以這么說,softirq沿用的是最早的bottom half思想,但在這個"bottom half"機制之上,已經(jīng)實現(xiàn)了一個更加龐大和復雜的軟中斷子系統(tǒng)。
struct softirq_action{void(*action)(struct softirq_action *);void*data;};static struct softirq_action softirq_vec[32] __cacheline_aligned;
這個softirq_vec[]僅比bh_base[]增加了action()函數(shù)的參數(shù),在執(zhí)行上,softirq比bottom half的限制更少。
和bottom half類似,系統(tǒng)也預定義了幾個softirq_vec[]結構的用途,通過以下枚舉表示:
enum{HI_SOFTIRQ=0,NET_TX_SOFTIRQ,NET_RX_SOFTIRQ,TASKLET_SOFTIRQ};
HI_SOFTIRQ被用于實現(xiàn)bottom half,TASKLET_SOFTIRQ用于公共的tasklet使用,NET_TX_SOFTIRQ和NET_RX_SOFTIRQ用于網(wǎng)絡子系統(tǒng)的報文收發(fā)。在軟中斷子系統(tǒng)初始化(softirq_init())時,調用了open_softirq()對HI_SOFTIRQ和TASKLET_SOFTIRQ做了初始化:
void open_softirq(int nr, void (*action)(struct softirq_action*), void *data)
open_softirq()會填充softirq_vec[nr],將action和data設為傳入的參數(shù)。TASKLET_SOFTIRQ填充為tasklet_action(NULL),HI_SOFTIRQ填充為tasklet_hi_action(NULL),在do_softirq()函數(shù)中,這兩個函數(shù)會被調用,分別啟動tasklet_vec[cpu]和tasklet_hi_vec[cpu]鏈上的tasklet運行。
static inline void __cpu_raise_softirq(int cpu, int nr)
這個函數(shù)用來激活軟中斷,實際上就是第cpu號CPU的第nr號軟中斷的active位置1。在do_softirq()中將判斷這個active位。tasklet_schedule()和tasklet_hi_schedule()都會調用這個函數(shù)。
do_softirq()有4個執(zhí)行時機,分別是:從系統(tǒng)調用中返回(arch/i386/kernel/entry.S::ENTRY(ret_from_sys_call))、從異常中返回(arch/i386/kernel/entry.S::ret_from_exception標號)、調度程序中(kernel/sched.c::schedule()),以及處理完硬件中斷之后(kernel/irq.c::do_IRQ())。它將遍歷所有的softirq_vec,依次啟動其中的action()。需要注意的是,軟中斷服務程序,不允許在硬中斷服務程序中執(zhí)行,也不允許在軟中斷服務程序中嵌套執(zhí)行,但允許多個軟中斷服務程序同時在多個CPU上并發(fā)。
使用示例
softirq作為一種底層機制,很少由內核程序員直接使用,因此,這里的使用范例僅對其余幾種軟中斷機制。
1.bottom half
原有的bottom half用法在drivers/char/serial.c中還能看到,包括三個步驟:
init_bh(SERIAL_BH,do_serial_bh);//在串口設備的初始化函數(shù)rs_init()中,do_serial_bh()是處理函數(shù)mark_bh(SERIAL_BH);//在rs_sched_event()中,這個函數(shù)由中斷處理例程調用remove_bh(SERIAL_BH);//在串口設備的結束函數(shù)rs_fini()中調用
盡管邏輯上還是這么三步,但在do_serial_bh()函數(shù)中的動作卻是啟動一個task queue:run_task_queue(&tq_serial),而在rs_sched_event()中,mark_bh()之前調用的則是queue_task(...,&tq_serial),也就是說串口bottom half已經(jīng)結合task queue使用了。而那些更通用一些的bottom half,比如IMMEDIATE_BH,更是必須要與task queue結合使用,而且一般情況下,task queue也很少獨立使用,而是與bottom half結合,這在下一節(jié)task queue使用示例中可以清楚地看到。
2.task queue
一般來說,程序員很少自己定義task queue,而是結合bottom half,直接使用系統(tǒng)預定義的tq_immediate等,尤以tq_immediate使用最頻繁??匆韵麓a段,節(jié)選自drivers/block/floppy.c:
static struct tq_struct floppy_tq;//定義一個tq_struct結構變量floppy_tq,不需要作其他初始化動作static void schedule_bh( void (*handler)(void*) ){floppy_tq.routine = (void *)(void *) handler;//指定floppy_tq的調用函數(shù)為handler,不需要考慮floppy_tq中的其他域queue_task(&floppy_tq, &tq_immediate);//將floppy_tq加入到tq_immediate中mark_bh(IMMEDIATE_BH);//激活IMMEDIATE_BH,由上所述可知,這實際上將引發(fā)一個軟中斷來執(zhí)行tq_immediate中掛接的各個函數(shù)}
當然,我們還是可以定義并使用自己的task queue,而不用tq_immediate,在drivers/char/serial.c中提到的tq_serial就是串口驅動自己定義的:
static DECLARE_TASK_QUEUE(tq_serial);
此時就需要自行調用run_task_queue(&tq_serial)來啟動其中的函數(shù)了,因此并不常用。
3.tasklet
這是比task queue和bottom half更加強大的一套軟中斷機制,使用上也相對簡單,見下面代碼段:
1:void foo_tasklet_action(unsigned long t);2:unsigned long stop_tasklet;3:DECLARE_TASKLET(foo_tasklet, foo_tasklet_action, 0);4:void foo_tasklet_action(unsigned long t)5:{6://do something7:8://reschedule9:if(!stop_tasklet)10:tasklet_schedule(&foo_tasklet);11:}12:void foo_init(void)13:{14:stop_tasklet=0;15:tasklet_schedule(&foo_tasklet);16:}17:void foo_clean(void)18:{19:stop_tasklet=1;20:tasklet_kill(&foo_tasklet);21:}
這個比較完整的代碼段利用一個反復執(zhí)行的tasklet來完成一定的工作,首先在第3行定義foo_tasklet,與相應的動作函數(shù)foo_tasklet_action相關聯(lián),并指定foo_tasklet_action()的參數(shù)為0。雖然此處以0為參數(shù),但也同樣可以指定有意義的其他參數(shù)值,但需要注意的是,這個參數(shù)值在定義的時候必須是有固定值的變量或常數(shù)(如上例),也就是說可以定義一個全局變量,將其地址作為參數(shù)傳給foo_tasklet_action(),例如:
int flags;DECLARE_TASKLET(foo_tasklet,foo_tasklet_action,&flags);void foo_tasklet_action(unsigned long t){int flags=*(int *)t;...}
這樣就可以通過改變flags的值將信息帶入tasklet中。直接在DECLARE_TASKLET處填寫flags,gcc會報"initializer element is not constant"錯。
第9、10行是一種RESCHEDULE的技術。我們知道,一個tasklet執(zhí)行結束后,它就從執(zhí)行隊列里刪除了,要想重新讓它轉入運行,必須重新調用tasklet_schedule(),調用的時機可以是某個事件發(fā)生的時候,也可以是像這樣在tasklet動作中。而這種reschedule技術將導致tasklet永遠運行,因此在子系統(tǒng)退出時,應該有辦法停止tasklet。stop_tasklet變量和tasklet_kill()就是干這個的。