深入理解Linux內(nèi)核之主調(diào)度器（下）

時間：2021-08-19 16:27:59

關(guān)鍵字：內(nèi)核調(diào)度器

手機看文章

掃描二維碼
隨時隨地手機看文章

[導(dǎo)讀]4.進程上下文切換接前文：深入理解Linux內(nèi)核之主調(diào)度器（上）前面選擇了一個合適進程作為下一個進程，接下來做重要的上下文切換動作，來保存上一個進程的“上下文”恢復(fù)下一個進程的“上下文”，主要包括進程地址空間切換和處理器狀態(tài)切換。注：這里的上下文實際上是指進程運行時最小寄存器的集...

4.進程上下文切換

接前文：深入理解Linux內(nèi)核之主調(diào)度器（上）

前面選擇了一個合適進程作為下一個進程，接下來做重要的上下文切換動作，來保存上一個進程的“上下文”恢復(fù)下一個進程的“上下文”，主要包括進程地址空間切換和處理器狀態(tài)切換。

注：這里的上下文實際上是指進程運行時最小寄存器的集合。

如果切換的next進程不是同一個進程，才進行切換：

__schedule
?i??f?(likely(prev?!=?next))?{??????
????????...
????????context_switch??//進程上下文切換
????}

4.1 進程地址空間切換

進程地址空間切換就是切換虛擬地址空間，使得切換之后，當(dāng)前進程訪問的是屬于自己的虛擬地址空間（包括用戶地址空間和內(nèi)核地址空間），本質(zhì)上是切換頁表基地址寄存器。

進程地址空間切換讓進程產(chǎn)生獨占系統(tǒng)內(nèi)存的錯覺，因為切換完地址空間后，當(dāng)前進程可以訪問屬于它的海量的虛擬地址空間（內(nèi)核地址空間各個進程共享，用戶地址空間各個進程私有），而實際上物理地址空間只有一份。

下面給出源代碼分析：

context_switch
->
?/*
?|*?kernel?->?kernel???lazy? ?transfer?active
?|*???user?->?kernel???lazy? ?mmgrab()?active
?|*
?|*?kernel?->???user???switch? ?mmdrop()?active
?|*???user?->???user???switch
?|*/
?if?(!next->mm)?{????????????????????????????????//?to?kernel
?????????enter_lazy_tlb(prev->active_mm,?next);

?????????next->active_mm?=?prev->active_mm;
?????????if?(prev->mm)???????????????????????????//?from?user
?????????????????mmgrab(prev->active_mm);
?????????else
?????????????????prev->active_mm?=?NULL;
?}?else?{????????????????????????????????????????//?to?user
????????...
?????????switch_mm_irqs_off(prev->active_mm,?next->mm,?next);

?????????if?(!prev->mm)?{????????????????????????//?from?kernel
?????????????????/*?will?mmdrop()?in?finish_task_switch().?*/
?????????????????rq->prev_mm?=?prev->active_mm;
?????????????????prev->active_mm?=?NULL;
?????????}????????????
?}????????????????????
?????????????????????

以上代碼是判斷是否next進程是內(nèi)核線程，如果是則不需要進行地址空間切換（實際上指的是用戶地址空間），因為內(nèi)核線程總是運行在內(nèi)核態(tài)訪問的是內(nèi)核地址空間，而內(nèi)核地址空間是所有的進程共享的。在arm64架構(gòu)中，內(nèi)核地址空間是通過ttbr1_el1來訪問，而它的主內(nèi)核頁表在內(nèi)核初始化的時候已經(jīng)填充好了，也就是我們常說的swapper_pg_dir頁表，后面所有對內(nèi)核地址空間的訪問，無論是內(nèi)核線程也好還是用戶任務(wù)，統(tǒng)統(tǒng)通過swapper_pg_dir頁表來訪問，而在內(nèi)核初始化期間swapper_pg_dir頁表地址已經(jīng)加載到ttbr1_el1中。

需要說明一點的是：這里會做“借用” prev->active_mm的處理，借用的目的是為了避免切換屬于同一個進程的地址空間。舉例說明：Ua ?-> ?Ka ?-> ?Ua ??，Ua表示用戶進程， ?Ka表示內(nèi)核線程，當(dāng)進行這樣的切換的時候，Ka 借用Ua地址空間，Ua ?-> ?Ka不需要做地址空間切換，而Ka ?-> ?Ua按理來說需要做地址空間切換，但是由于切換的還是Ua 地址空間，所以也不需要真正的切換（判斷了Ka->active_mm == Ua->active_mm ），當(dāng)然還包括切換的是同一個進程的多個線程的情況，這留給大家思考。

下面來看下真正的地址空間切換：

?switch_mm_irqs_off(prev->active_mm,?next->mm,?next);
?->switch_mm??//arch/arm64/include/asm/mmu_context.h
????->?if?(prev?!=?next)?
?????????__switch_mm(next);
???????????->check_and_switch_context(next)
????????????????->?...??//asid處理
???????????????->?cpu_switch_mm(mm->pgd,?mm)
???????????????????->cpu_do_switch_mm(virt_to_phys(pgd),mm)
?????????????????????????->?unsigned?long?ttbr1?=?read_sysreg(ttbr1_el1);??
?????????????????????????????unsigned?long?asid?=?ASID(mm);?????????????????
?????????????????????????????unsigned?long?ttbr0?=?phys_to_ttbr(pgd_phys);??
?????????????????????????????...
?????????????????????????????write_sysreg(ttbr1,?ttbr1_el1);???//設(shè)置asid到ttbr1_el1
?????????????????????????????isb();????????????????????????????
?????????????????????????????write_sysreg(ttbr0,?ttbr0_el1);???//設(shè)置mm->pgd?到ttbr0_el1

上面代碼是做真正的地址空間切換，實際的切換很簡單，并沒有那么復(fù)雜和玄乎，僅僅設(shè)置頁表基地址寄存器即可，當(dāng)然這里還涉及到了為了防止頻繁無效tlb的ASID的設(shè)置。

主要做的工作就是設(shè)置next進程的ASID到ttbr1_el1，設(shè)置mm->pgd 到ttbr0_el1，僅此而已！

需要注意的是：1.寫到ttbr0_el1的值是進程pgd頁表的物理地址。2.雖然做了這樣的切換，但是這個時候并不能訪問到next的用戶地址空間，因為還處在主調(diào)度器上下文中，屬于內(nèi)核態(tài)，訪問的是內(nèi)核空間。

而一旦返回了用戶態(tài)，next進程就能正常訪問自己地址空間內(nèi)容：

訪問一個用戶空間的虛擬地址va，首先通過va和記錄在ttbr1_el1的asid查詢tlb，如果找到相應(yīng)表項則獲得pa進行訪問。
如果tlb中沒有找到，通過ttbr0_el1來遍歷自己的多級頁表，找到相應(yīng)表項則獲得pa進行訪問。
如果發(fā)生中斷異常等訪問內(nèi)核地址空間，直接通過ttbr1_el1即可完成訪問。
訪問沒有建立頁表映射的合法va,發(fā)生缺頁異常來建立映射關(guān)系，填寫屬于進程自己的各級頁表，然后訪問。
訪問無法地址，發(fā)生缺頁殺死進程等等。

4.2 處理器狀態(tài)切換

來切換下一個進程的執(zhí)行流，上一個進程執(zhí)行狀態(tài)保存，讓下一個進程恢復(fù)執(zhí)行狀態(tài)。

處理器狀態(tài)切換而后者讓進程產(chǎn)生獨占系統(tǒng)cpu的錯覺，使得系統(tǒng)中各個任務(wù)能夠并發(fā)（多個任務(wù)在多個cpu上運行）或分時復(fù)用（多個任務(wù)在一個cpu上運行）cpu資源。

下面給出代碼：

context_switch
->(last)?=?__switch_to((prev),?(next))
????->?fpsimd_thread_switch(next)?//浮點寄存器切換
????????...
????????last?=?cpu_switch_to(prev,?next);?

處理器狀態(tài)切換會做浮點寄存器等切換，最終調(diào)用cpu_switch_to做真正切換。

cpu_switch_to??//arch/arm64/kernel/entry.S
SYM_FUNC_START(cpu_switch_to)
????????mov?????x10,?#THREAD_CPU_CONTEXT
????????add?????x8,?x0,?x10
????????mov?????x9,?sp
????????stp?????x19,?x20,?[x8],?#16?????????????//?store?callee-saved?registers
????????stp?????x21,?x22,?[x8],?#16
????????stp?????x23,?x24,?[x8],?#16
????????stp?????x25,?x26,?[x8],?#16
????????stp?????x27,?x28,?[x8],?#16
????????stp?????x29,?x9,?[x8],?#16
????????str?????lr,?[x8]
????????add?????x8,?x1,?x10
????????ldp?????x19,?x20,?[x8],?#16?????????????//?restore?callee-saved?registers
????????ldp?????x21,?x22,?[x8],?#16
????????ldp?????x23,?x24,?[x8],?#16
????????ldp?????x25,?x26,?[x8],?#16
????????ldp?????x27,?x28,?[x8],?#16
????????ldp?????x29,?x9,?[x8],?#16
????????ldr?????lr,?[x8]
????????mov?????sp,?x9
????????msr?????sp_el0,?x1
????????ptrauth_keys_install_kernel?x1,?x8,?x9,?x10
????????scs_save?x0,?x8
????????scs_load?x1,?x8
????????ret
SYM_FUNC_END(cpu_switch_to)

這里傳遞過來的是x0為prev進程的進程描述符（struct task_struct）地址， x1為next的進程描述符地址。會就將prev進程的 x19-x28,fp,sp,lr保存到prev進程的tsk.thread.cpu_context中，next進程的這些寄存器值從next進程的tsk.thread.cpu_context中恢復(fù)到相應(yīng)寄存器。這里還做了sp_el0設(shè)置為next進程描述符的操作，為了通過current宏找到當(dāng)前的任務(wù)。

需要注意的是：

mov ? ? sp, x9 ?做了切換進程內(nèi)核棧的操作。
ldr ? ? lr, [x8] 設(shè)置了鏈接寄存器，然后ret的時候會將lr恢復(fù)到pc從而真正完成了執(zhí)行流的切換。

4.3 精美圖示

這里給出了進程切換的圖示（以arm64處理器為例），這里從prev進程切換到next進程。

5.進程再次被調(diào)度

當(dāng)進程重新被調(diào)度的時候，從原來的調(diào)度現(xiàn)場恢復(fù)執(zhí)行。

5.1 關(guān)于lr地址的設(shè)置

1）如果切換的next進程是剛fork的進程，它并沒有真正的這些調(diào)度上下文的存在，那么lr是什么呢？這是在fork的時候設(shè)置的：

do_fork
????...
????copy_thread?//arch/arm64/kernel/process.c
????->memset(


                
            欲知詳情，請下載word文檔 下載文檔

深入理解Linux內(nèi)核之主調(diào)度器（下）

4.進程上下文切換

4.1 進程地址空間切換

4.2 處理器狀態(tài)切換

4.3 精美圖示

5.進程再次被調(diào)度

5.1 關(guān)于lr地址的設(shè)置

阿維塔、賽力斯已入股！華為引望可能成“中國博世”

Trianz與AWS達(dá)成戰(zhàn)略合作協(xié)議，徹底改變云采用和管理方式

人工智能驅(qū)動工具SODA V將顛覆汽車市場，使汽車開發(fā)時間和成本降低90%

從容應(yīng)對未知風(fēng)險----解密亞馬遜云科技的韌性之道

中國游戲市場開始復(fù)蘇！騰訊、網(wǎng)易等巨頭縮減在日本投資

獨立自主！華為董事：致力打造不依賴西方的技術(shù)

華為張平安：數(shù)字世界話語權(quán)最終由生態(tài)繁榮決定！

中國通信服務(wù)公布2024年中期業(yè)績

NVI技術(shù)創(chuàng)新聯(lián)盟成立！自主生態(tài)將帶動產(chǎn)業(yè)鏈高速發(fā)展

軟通動力與長三角投資達(dá)成戰(zhàn)略合作共謀數(shù)字生態(tài)新發(fā)展

海南區(qū)6家凱悅系酒店與嵐圖達(dá)成戰(zhàn)略合作，共同推動新能源出行體驗

安嵐攜手妮可?巴菲特開啟療愈之旅在秋日紅葉的浪漫中療愈身心

不懼美國封鎖！華為：我們給大家提供系統(tǒng)、存儲等

尼爾森IQ深耕中國四十載，共繪未來新篇章

第二十二屆跨盈年度B2B營銷高管峰會2025聚焦"營銷競?cè)?，打破市場?nèi)卷實現(xiàn)認(rèn)知進化"

恒久動力馳騁天地美孚1號攜手周冠宇邀您縱擎馳騁，勁享駕趣體驗

美通社母公司Cision發(fā)布CisionOne平臺，進軍亞太地區(qū)媒體監(jiān)測市場

移遠(yuǎn)通信推出大模型解決方案，重塑千行百業(yè)智能邊界

高途公布2024年第二季度未經(jīng)審計業(yè)績

華為發(fā)布AI百校計劃：培養(yǎng)AI人才每年獲最高100萬支持