萬字整理，肝翻 Linux 內(nèi)存管理所有知識點

時間：2021-08-19 16:30:43

關(guān)鍵字：內(nèi)存管理

手機看文章

掃描二維碼
隨時隨地手機看文章

[導(dǎo)讀]Linux的內(nèi)存管理可謂是學(xué)好Linux的必經(jīng)之路，也是Linux的關(guān)鍵知識點，有人說打通了內(nèi)存管理的知識，也就打通了Linux的任督二脈，這一點不夸張。有人問網(wǎng)上有很多Linux內(nèi)存管理的內(nèi)容，為什么還要看你這一篇，這正是我寫此文的原因，網(wǎng)上碎片化的相關(guān)知識點大都是東拼西湊，先...

Linux的內(nèi)存管理可謂是學(xué)好Linux的必經(jīng)之路，也是Linux的關(guān)鍵知識點，有人說打通了內(nèi)存管理的知識，也就打通了Linux的任督二脈，這一點不夸張。有人問網(wǎng)上有很多Linux內(nèi)存管理的內(nèi)容，為什么還要看你這一篇，這正是我寫此文的原因，網(wǎng)上碎片化的相關(guān)知識點大都是東拼西湊，先不說正確性與否，就連基本的邏輯都沒有搞清楚，我可以負責(zé)任的說Linux內(nèi)存管理只需要看此文一篇就可以讓你入Linux內(nèi)核的大門，省去你東找西找的時間，讓你形成內(nèi)存管理知識的閉環(huán)。

文章比較長，做好準(zhǔn)備，深呼吸，讓我們一起打開Linux內(nèi)核的大門！

Linux內(nèi)存管理之CPU訪問內(nèi)存的過程

我喜歡用圖的方式來說明問題，簡單直接：

藍色部分是cpu，灰色部分是內(nèi)存，白色部分就是cpu訪問內(nèi)存的過程，也是地址轉(zhuǎn)換的過程。在解釋地址轉(zhuǎn)換的本質(zhì)前我們先理解下幾個概念：

TLB：MMU工作的過程就是查詢頁表的過程。如果把頁表放在內(nèi)存中查詢的時候開銷太大，因此為了提高查找效率，專門用一小片訪問更快的區(qū)域存放地址轉(zhuǎn)換條目。（當(dāng)頁表內(nèi)容有變化的時候，需要清除TLB，以防止地址映射出錯。）
Caches：cpu和內(nèi)存之間的緩存機制，用于提高訪問速率，armv8架構(gòu)的話上圖的caches其實是L2 Cache，這里就不做進一步解釋了。

虛擬地址轉(zhuǎn)換為物理地址的本質(zhì)

我們知道內(nèi)核中的尋址空間大小是由CONFIG_ARM64_VA_BITS控制的，這里以48位為例，ARMv8中，Kernel Space的頁表基地址存放在TTBR1_EL1寄存器中，User Space頁表基地址存放在TTBR0_EL0寄存器中，其中內(nèi)核地址空間的高位為全1，(0xFFFF0000_00000000 ~ 0xFFFFFFFF_FFFFFFFF)，用戶地址空間的高位為全0，(0x00000000_00000000 ~ 0x0000FFFF_FFFFFFFF)

有了宏觀概念，下面我們以內(nèi)核態(tài)尋址過程為例看下是如何把虛擬地址轉(zhuǎn)換為物理地址的。

我們知道linux采用了分頁機制，通常采用四級頁表，頁全局目錄(PGD)，頁上級目錄(PUD)，頁中間目錄(PMD)，頁表(PTE)。如下：

從CR3寄存器中讀取頁目錄所在物理頁面的基址(即所謂的頁目錄基址)，從線性地址的第一部分獲取頁目錄項的索引，兩者相加得到頁目錄項的物理地址。
第一次讀取內(nèi)存得到pgd_t結(jié)構(gòu)的目錄項，從中取出物理頁基址取出，即頁上級頁目錄的物理基地址。
從線性地址的第二部分中取出頁上級目錄項的索引，與頁上級目錄基地址相加得到頁上級目錄項的物理地址。
第二次讀取內(nèi)存得到pud_t結(jié)構(gòu)的目錄項，從中取出頁中間目錄的物理基地址。
從線性地址的第三部分中取出頁中間目錄項的索引，與頁中間目錄基址相加得到頁中間目錄項的物理地址。
第三次讀取內(nèi)存得到pmd_t結(jié)構(gòu)的目錄項，從中取出頁表的物理基地址。
從線性地址的第四部分中取出頁表項的索引，與頁表基址相加得到頁表項的物理地址。
第四次讀取內(nèi)存得到pte_t結(jié)構(gòu)的目錄項，從中取出物理頁的基地址。
從線性地址的第五部分中取出物理頁內(nèi)偏移量，與物理頁基址相加得到最終的物理地址。
第五次讀取內(nèi)存得到最終要訪問的數(shù)據(jù)。

整個過程是比較機械的，每次轉(zhuǎn)換先獲取物理頁基地址，再從線性地址中獲取索引，合成物理地址后再訪問內(nèi)存。不管是頁表還是要訪問的數(shù)據(jù)都是以頁為單位存放在主存中的，因此每次訪問內(nèi)存時都要先獲得基址，再通過索引(或偏移)在頁內(nèi)訪問數(shù)據(jù)，因此可以將線性地址看作是若干個索引的集合。

Linux內(nèi)存初始化

有了armv8架構(gòu)訪問內(nèi)存的理解，我們來看下linux在內(nèi)存這塊的初始化就更容易理解了。

創(chuàng)建啟動頁表：

在匯編代碼階段的head.S文件中，負責(zé)創(chuàng)建映射關(guān)系的函數(shù)是create_page_tables。create_page_tables函數(shù)負責(zé)identity mapping和kernel image mapping。

identity map：是指把idmap_text區(qū)域的物理地址映射到相等的虛擬地址上，這種映射完成后，其虛擬地址等于物理地址。idmap_text區(qū)域都是一些打開MMU相關(guān)的代碼。
kernel image map：將kernel運行需要的地址（kernel txt、rodata、data、bss等等）進行映射。

arch/arm64/kernel/head.S:
ENTRY(stext)
????????bl??????preserve_boot_args
????????bl??????el2_setup???????????????????????//?Drop?to?EL1,?w0=cpu_boot_mode
????????adrp????x23,?__PHYS_OFFSET
????????and?????x23,?x23,?MIN_KIMG_ALIGN?-?1????//?KASLR?offset,?defaults?to?0
????????bl??????set_cpu_boot_mode_flag
????????bl??????__create_page_tables
????????/*
?????????*?The?following?calls?CPU?setup?code,?see?arch/arm64/mm/proc.S?for
?????????*?details.
?????????*?On?return,?the?CPU?will?be?ready?for?the?MMU?to?be?turned?on?and
?????????*?the?TCR?will?have?been?set.
?????????*/
????????bl??????__cpu_setup?????????????????????//?initialise?processor
????????b???????__primary_switch
ENDPROC(stext)

__create_page_tables主要執(zhí)行的就是identity map和kernel image map：

?__create_page_tables:
......
????????create_pgd_entry?x0,?x3,?x5,?x6
????????mov?????x5,?x3??????????????????????????//?__pa(__idmap_text_start)
????????adr_l???x6,?__idmap_text_end????????????//?__pa(__idmap_text_end)
????????create_block_map?x0,?x7,?x3,?x5,?x6

????????/*
?????????*?Map?the?kernel?image?(starting?with?PHYS_OFFSET).
?????????*/
????????adrp????x0,?swapper_pg_dir
????????mov_q???x5,?KIMAGE_VADDR? ?TEXT_OFFSET??//?compile?time?__va(_text)
????????add?????x5,?x5,?x23?????????????????????//?add?KASLR?displacement
????????create_pgd_entry?x0,?x5,?x3,?x6
????????adrp????x6,?_end????????????????????????//?runtime?__pa(_end)
????????adrp????x3,?_text???????????????????????//?runtime?__pa(_text)
????????sub?????x6,?x6,?x3??????????????????????//?_end?-?_text
????????add?????x6,?x6,?x5??????????????????????//?runtime?__va(_end)
????????create_block_map?x0,?x7,?x3,?x5,?x6
?......

其中調(diào)用create_pgd_entry進行PGD及所有中間level(PUD, PMD)頁表的創(chuàng)建，調(diào)用create_block_map進行PTE頁表的映射。關(guān)于四級頁表的關(guān)系如下圖所示，這里就不進一步解釋了。

匯編結(jié)束后的內(nèi)存映射關(guān)系如下圖所示：

等內(nèi)存初始化后就可以進入真正的內(nèi)存管理了，初始化我總結(jié)了一下，大體分為四步：

物理內(nèi)存進系統(tǒng)前
用memblock模塊來對內(nèi)存進行管理
頁表映射
zone初始化

Linux是如何組織物理內(nèi)存的？

node目前計算機系統(tǒng)有兩種體系結(jié)構(gòu)：

非一致性內(nèi)存訪問 NUMA（Non-Uniform Memory Access）意思是內(nèi)存被劃分為各個node，訪問一個node花費的時間取決于CPU離這個node的距離。每一個cpu內(nèi)部有一個本地的node，訪問本地node時間比訪問其他node的速度快
一致性內(nèi)存訪問 UMA（Uniform Memory Access）也可以稱為SMP（Symmetric Multi-Process）對稱多處理器。意思是所有的處理器訪問內(nèi)存花費的時間是一樣的。也可以理解整個內(nèi)存只有一個node。

zone

ZONE的意思是把整個物理內(nèi)存劃分為幾個區(qū)域，每個區(qū)域有特殊的含義

page

代表一個物理頁，在內(nèi)核中一個物理頁用一個struct page表示。

page frame

為了描述一個物理page，內(nèi)核使用struct page結(jié)構(gòu)來表示一個物理頁。假設(shè)一個page的大小是4K的，內(nèi)核會將整個物理內(nèi)存分割成一個一個4K大小的物理頁，而4K大小物理頁的區(qū)域我們稱為page frame

page frame num(pfn)

pfn是對每個page frame的編號。故物理地址和pfn的關(guān)系是：

物理地址>>PAGE_SHIFT = pfn

pfn和page的關(guān)系

內(nèi)核中支持了好幾個內(nèi)存模型：CONFIG_FLATMEM（平坦內(nèi)存模型）CONFIG_DISCONTIGMEM（不連續(xù)內(nèi)存模型）CONFIG_SPARSEMEM_VMEMMAP（稀疏的內(nèi)存模型）目前ARM64使用的稀疏的類型模式。

系統(tǒng)啟動的時候，內(nèi)核會將整個struct page映射到內(nèi)核虛擬地址空間vmemmap的區(qū)域，所以我們可以簡單的認為struct page的基地址是vmemmap，則：

vmemmap pfn的地址就是此struct page對應(yīng)的地址。

Linux分區(qū)頁框分配器

頁框分配在內(nèi)核里的機制我們叫做分區(qū)頁框分配器(zoned page frame allocator)，在linux系統(tǒng)中，分區(qū)頁框分配器管理著所有物理內(nèi)存，無論你是內(nèi)核還是進程，都需要請求分區(qū)頁框分配器，這時才會分配給你應(yīng)該獲得的物理內(nèi)存頁框。當(dāng)你所擁有的頁框不再使用時，你必須釋放這些頁框，讓這些頁框回到管理區(qū)頁框分配器當(dāng)中。

有時候目標(biāo)管理區(qū)不一定有足夠的頁框去滿足分配，這時候系統(tǒng)會從另外兩個管理區(qū)中獲取要求的頁框，但這是按照一定規(guī)則去執(zhí)行的，如下：

如果要求從DMA區(qū)中獲取，就只能從ZONE_DMA區(qū)中獲取。
如果沒有規(guī)定從哪個區(qū)獲取，就按照順序從 ZONE_NORMAL -> ZONE_DMA 獲取。
如果規(guī)定從HIGHMEM區(qū)獲取，就按照順序從 ZONE_HIGHMEM -> ZONE_NORMAL -> ZONE_DMA 獲取。

內(nèi)核中根據(jù)不同的分配需求有6個函數(shù)接口來請求頁框，最終都會調(diào)用到__alloc_pages_nodemask。

struct?page?*
__alloc_pages_nodemask(gfp_t?gfp_mask,?unsigned?int?order,?int?preferred_nid,
???????nodemask_t?*nodemask)
{
??page?=?get_page_from_freelist(alloc_mask,?order,?alloc_flags,?


                
            欲知詳情，請下載word文檔 下載文檔

萬字整理，肝翻 Linux 內(nèi)存管理所有知識點

Linux內(nèi)存管理之CPU訪問內(nèi)存的過程

虛擬地址轉(zhuǎn)換為物理地址的本質(zhì)

Linux內(nèi)存初始化

創(chuàng)建啟動頁表：

Linux是如何組織物理內(nèi)存的？

Linux分區(qū)頁框分配器

阿維塔、賽力斯已入股！華為引望可能成“中國博世”

Trianz與AWS達成戰(zhàn)略合作協(xié)議，徹底改變云采用和管理方式

人工智能驅(qū)動工具SODA V將顛覆汽車市場，使汽車開發(fā)時間和成本降低90%

從容應(yīng)對未知風(fēng)險----解密亞馬遜云科技的韌性之道

中國游戲市場開始復(fù)蘇！騰訊、網(wǎng)易等巨頭縮減在日本投資

獨立自主！華為董事：致力打造不依賴西方的技術(shù)

華為張平安：數(shù)字世界話語權(quán)最終由生態(tài)繁榮決定！

中國通信服務(wù)公布2024年中期業(yè)績

NVI技術(shù)創(chuàng)新聯(lián)盟成立！自主生態(tài)將帶動產(chǎn)業(yè)鏈高速發(fā)展

軟通動力與長三角投資達成戰(zhàn)略合作共謀數(shù)字生態(tài)新發(fā)展

海南區(qū)6家凱悅系酒店與嵐圖達成戰(zhàn)略合作，共同推動新能源出行體驗

安嵐攜手妮可?巴菲特開啟療愈之旅在秋日紅葉的浪漫中療愈身心

不懼美國封鎖！華為：我們給大家提供系統(tǒng)、存儲等

尼爾森IQ深耕中國四十載，共繪未來新篇章

第二十二屆跨盈年度B2B營銷高管峰會2025聚焦"營銷競?cè)?，打破市場?nèi)卷實現(xiàn)認知進化"

恒久動力馳騁天地美孚1號攜手周冠宇邀您縱擎馳騁，勁享駕趣體驗

美通社母公司Cision發(fā)布CisionOne平臺，進軍亞太地區(qū)媒體監(jiān)測市場

移遠通信推出大模型解決方案，重塑千行百業(yè)智能邊界

高途公布2024年第二季度未經(jīng)審計業(yè)績

華為發(fā)布AI百校計劃：培養(yǎng)AI人才每年獲最高100萬支持

萬字整理，肝翻 Linux 內(nèi)存管理所有知識點

Linux內(nèi)存管理之CPU訪問內(nèi)存的過程

虛擬地址轉(zhuǎn)換為物理地址的本質(zhì)

Linux內(nèi)存初始化

創(chuàng)建啟動頁表：

Linux是如何組織物理內(nèi)存的？

Linux分區(qū)頁框分配器

萬字整理，肝翻 Linux 內(nèi)存管理所有知識點

Linux是如何組織物理內(nèi)存的？