理解Linux內(nèi)核搶占模型(最透徹一篇)
本文原文地址:
https://devarea.com/understanding-linux-kernel-preemption/#.XrKLcfnx05k
作者:Liran B.H
譯者:宋寶華
當(dāng)配置Linux內(nèi)核的時(shí)候,我們可以選擇一些參數(shù),這些參數(shù)能影響系統(tǒng)的行為。你可以用不同的優(yōu)先級(jí)、調(diào)度類和搶占模型來工作。正確地選擇這些參數(shù)是非常重要的。
本文將論述不同的搶占模型如何影響用戶和系統(tǒng)的行為。
當(dāng)你使用 make menuconfig配置內(nèi)核的時(shí)候,你能看到這樣的菜單:
為了深入理解這三個(gè)搶占模型的區(qū)別,我們將寫一個(gè)案例:
-
2個(gè)線程,一個(gè)高優(yōu)先級(jí)RT(50),一個(gè)低優(yōu)先級(jí)RT(30)
-
高優(yōu)先級(jí)的線程要睡眠3秒
-
低優(yōu)先級(jí)的線程用CPU來做計(jì)算
-
3秒后高優(yōu)先級(jí)線程喚醒。
如果低優(yōu)先級(jí)的線程陷入系統(tǒng)調(diào)用,高優(yōu)先級(jí)的線程睡眠到期,究竟會(huì)發(fā)生什么?下面我們來一種模型一種模型地看。
No Forced Preemption
這種情況下,上下文切換發(fā)生在系統(tǒng)調(diào)用返回用戶空間的點(diǎn)。案例如下:
-
2個(gè)線程,一個(gè)高優(yōu)先級(jí)RT(50),一個(gè)低優(yōu)先級(jí)RT(30)
-
高優(yōu)先級(jí)的線程要睡眠3秒
-
低優(yōu)先級(jí)的線程進(jìn)入系統(tǒng)調(diào)用計(jì)算5秒
-
5秒后低優(yōu)先級(jí)線程從內(nèi)核系統(tǒng)調(diào)用返回
-
高優(yōu)先級(jí)線程將醒來(但是比預(yù)期遲了2秒)。
內(nèi)核代碼,簡(jiǎn)單的字符設(shè)備:
讀里面delay了5秒, 注意mdelay是一個(gè)計(jì)算型的busy-loop。
用戶空間代碼如下:
實(shí)驗(yàn)步驟:
-
高優(yōu)先級(jí)線程開始睡眠3秒
-
低優(yōu)先級(jí)線程睡眠1秒然后做系統(tǒng)調(diào)用
-
高優(yōu)先級(jí)線程6秒后醒來(stop和start的時(shí)間差)
Preemptible Kernel
這種情況內(nèi)核里面也可以搶占,意味著上述程序里面的高優(yōu)先級(jí)線程3秒后可醒來。
這種情況下,系統(tǒng)會(huì)有更多的上下文切換,但是實(shí)時(shí)性更加好。對(duì)于要求軟實(shí)時(shí)的嵌入式系統(tǒng)而言,這個(gè)選項(xiàng)是最佳的。但是對(duì)于服務(wù)器而言,通常第一個(gè)選項(xiàng)更好——更少的上下文切換,更多的CPU時(shí)間用作有用功。
運(yùn)行結(jié)果(stop、start時(shí)間差3秒):
Voluntary Kernel Preemption
這種情況和第一種情況"no forced preemption"類似,但是內(nèi)核開發(fā)者可以在進(jìn)行復(fù)雜操作的時(shí)候,時(shí)不時(shí)檢查一下是否可以reschedule。他們可以調(diào)用might_resched()函數(shù)。
在下面的代碼中,我們添加了一些檢查點(diǎn)(check point)
如果我們把might_resched()注釋掉,它會(huì)delay 7秒。
添加cond_resched()調(diào)用將導(dǎo)致系統(tǒng)檢查是否有高優(yōu)先級(jí)的任務(wù)被喚醒,這樣高優(yōu)先級(jí)任務(wù)5秒可以醒來(其中1秒在systemcall之前,另外4秒在kernel)。
運(yùn)行結(jié)果:
Full Real Time Preemption
如果我們使能RT補(bǔ)丁,我們會(huì)得到一個(gè)硬實(shí)時(shí)的kernel。這意味著任何代碼可以搶占任何人。比如一個(gè)更加緊急的任務(wù)可以搶占中斷服務(wù)程序ISR。這個(gè)patch進(jìn)行了如下改動(dòng):
-
把中斷服務(wù)程序轉(zhuǎn)化為優(yōu)先級(jí)是50的RT線程
-
把softIRQ轉(zhuǎn)化為優(yōu)先級(jí)是49的RT線程
-
把所有的spinlock變成mutex
-
高精度定時(shí)器
-
其他的細(xì)小改動(dòng)
打補(bǔ)丁后會(huì)看到2個(gè)新增的菜單:
其中 “Preemptible Kernel (Basic RT)” 是為了調(diào)試目的的,為了全面使用RT補(bǔ)丁的功能,我們應(yīng)該選擇最后一項(xiàng) – Fully Preemptible Kernel。這樣我們會(huì)有更多的上下文切換,但是可以滿足RT的實(shí)時(shí)要求。
免責(zé)聲明:本文內(nèi)容由21ic獲得授權(quán)后發(fā)布,版權(quán)歸原作者所有,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。文章僅代表作者個(gè)人觀點(diǎn),不代表本平臺(tái)立場(chǎng),如有問題,請(qǐng)聯(lián)系我們,謝謝!