基于Linux的內(nèi)存管理方式解析
現(xiàn)在的服務(wù)器大部分都是運(yùn)行在Linux上面的,所以,作為一個(gè)程序員有必要簡單地了解一下系統(tǒng)是如何運(yùn)行的。對于內(nèi)存部分需要知道:
地址映射
內(nèi)存管理的方式
缺頁異常
先來看一些基本的知識,在進(jìn)程看來,內(nèi)存分為內(nèi)核態(tài)和用戶態(tài)兩部分,經(jīng)典比例如下:
從用戶態(tài)到內(nèi)核態(tài)一般通過系統(tǒng)調(diào)用、中斷來實(shí)現(xiàn)。用戶態(tài)的內(nèi)存被劃分為不同的區(qū)域用于不同的目的:
當(dāng)然內(nèi)核態(tài)也不會無差別地使用,所以,其劃分如下:
下面來仔細(xì)看這些內(nèi)存是如何管理的。
地址
在Linux內(nèi)部的地址的映射過程為邏輯地址–>線性地址–>物理地址,物理地址最簡單:地址總線中傳輸?shù)臄?shù)字信號,而線性地址和邏輯地址所表示的則是一種轉(zhuǎn)換規(guī)則,線性地址規(guī)則如下:
這部分由MMU完成,其中涉及到主要的寄存器有CR0、CR3。機(jī)器指令中出現(xiàn)的是邏輯地址,邏輯地址規(guī)則如下:
在Linux中的邏輯地址等于線性地址,也就是說Inter為了兼容把事情搞得很復(fù)雜,Linux簡化順便偷個(gè)懶。
內(nèi)存管理的方式
在系統(tǒng)boot的時(shí)候會去探測內(nèi)存的大小和情況,在建立復(fù)雜的結(jié)構(gòu)之前,需要用一個(gè)簡單的方式來管理這些內(nèi)存,這就是bootmem,簡單來說就是位圖,不過其中也有一些優(yōu)化的思路。
bootmem再怎么優(yōu)化,效率都不高,在要分配內(nèi)存的時(shí)候畢竟是要去遍歷,buddy系統(tǒng)剛好能解決這個(gè)問題:在內(nèi)部保存一些2的冪次大小的空閑內(nèi)存片段,如果要分配3page,去4page的列表里面取一個(gè),分配3個(gè)之后將剩下的1個(gè)放回去,內(nèi)存釋放的過程剛好是一個(gè)逆過程。用一個(gè)圖來表示:
可以看到0、4、5、6、7都是正在使用的,那么,1、2被釋放的時(shí)候,他們會合并嗎?
static inline unsigned long
__find_buddy_index(unsigned long page_idx, unsigned int order)
{
return page_idx ^ (1 << order);// 更新最高位,0~1互換
}
從上面這段代碼中可以看到,0、1是buddy,2、3是buddy,雖然1、2相鄰,但他們不是。內(nèi)存碎片是系統(tǒng)運(yùn)行的大敵,伙伴系統(tǒng)機(jī)制可以在一定程度上防止碎片~~另外,我們可以通過cat /proc/buddyinfo獲取到各order中的空閑的頁面數(shù)。
伙伴系統(tǒng)每次分配內(nèi)存都是以頁(4KB)為單位的,但系統(tǒng)運(yùn)行的時(shí)候使用的絕大部分的數(shù)據(jù)結(jié)構(gòu)都是很小的,為一個(gè)小對象分配4KB顯然是不劃算了。Linux中使用slab來解決小對象的分配:
在運(yùn)行時(shí),slab向buddy“批發(fā)”一些內(nèi)存,加工切塊以后“散賣”出去。隨著大規(guī)模多處理器系統(tǒng)和NUMA系統(tǒng)的廣泛應(yīng)用,slab終于暴露出不足:
復(fù)雜的隊(duì)列管理
管理數(shù)據(jù)和隊(duì)列存儲開銷較大
長時(shí)間運(yùn)行partial隊(duì)列可能會非常長
對NUMA支持非常復(fù)雜
為了解決這些高手們開發(fā)了slub:改造page結(jié)構(gòu)來削減slab管理結(jié)構(gòu)的開銷、每個(gè)CPU都有一個(gè)本地活動的slab(kmem_cache_cpu)等。對于小型的嵌入式系統(tǒng)存在一個(gè)slab模擬層slob,在這種系統(tǒng)中它更有優(yōu)勢。
小內(nèi)存的問題算是解決了,但還有一個(gè)大內(nèi)存的問題:用伙伴系統(tǒng)分配10 x 4KB的數(shù)據(jù)時(shí),會去16 x 4KB的空閑列表里面去找(這樣得到的物理內(nèi)存是連續(xù)的),但很有可能系統(tǒng)里面有內(nèi)存,但是伙伴系統(tǒng)分配不出來,因?yàn)樗麄儽环指畛尚〉钠?。那么,vmalloc就是要用這些碎片來拼湊出一個(gè)大內(nèi)存,相當(dāng)于收集一些“邊角料”,組裝成一個(gè)成品后“出售”:
之前的內(nèi)存都是直接映射的,第一次感覺到頁式管理的存在:D 另外對于高端內(nèi)存,提供了kmap方法為page分配一個(gè)線性地址。
進(jìn)程由不同長度的段組成:代碼段、動態(tài)庫的代碼、全局變量和動態(tài)產(chǎn)生數(shù)據(jù)的堆、棧等,在Linux中為每個(gè)進(jìn)程管理了一套虛擬地址空間:
在我們寫代碼malloc完以后,并沒有馬上占用那么大的物理內(nèi)存,而僅僅是維護(hù)上面的虛擬地址空間而已,只有在真正需要的時(shí)候才分配物理內(nèi)存,這就是COW(COPY-ON-WRITE:寫時(shí)復(fù)制)技術(shù),而物理分配的過程就是最復(fù)雜的缺頁異常處理環(huán)節(jié)了,下面來看!
缺頁異常
在實(shí)際需要某個(gè)虛擬內(nèi)存區(qū)域的數(shù)據(jù)之前,和物理內(nèi)存之間的映射關(guān)系不會建立。如果進(jìn)程訪問的虛擬地址空間部分尚未與頁幀關(guān)聯(lián),處理器自動引發(fā)一個(gè)缺頁異常。在內(nèi)核處理缺頁異常時(shí)可以拿到的信息如下:[!--empirenews.page--]
cr2:訪問到線性地址
err_code:異常發(fā)生時(shí)由控制單元壓入棧中,表示發(fā)生異常的原因
regs:發(fā)生異常時(shí)寄存器的值
處理的流程如下:
發(fā)生缺頁異常的時(shí)候,可能因?yàn)椴怀J褂枚籹wap到磁盤上了,swap相關(guān)的命令如下:
如果內(nèi)存是mmap映射到內(nèi)存中的,那么在讀、寫對應(yīng)內(nèi)存的時(shí)候也會產(chǎn)生缺頁異常。