基于Linux的內(nèi)存管理方式解析

時間：2018-01-18 21:50:21

關(guān)鍵字： Linux 內(nèi)存管理解析

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀]現(xiàn)在的服務(wù)器大部分都是運行在Linux上面的，所以，作為一個程序員有必要簡單地了解一下系統(tǒng)是如何運行的。對于內(nèi)存部分需要知道：地址映射內(nèi)存管理的方式缺頁異常先來看一些

現(xiàn)在的服務(wù)器大部分都是運行在Linux上面的，所以，作為一個程序員有必要簡單地了解一下系統(tǒng)是如何運行的。對于內(nèi)存部分需要知道：

地址映射

內(nèi)存管理的方式

缺頁異常

先來看一些基本的知識，在進程看來，內(nèi)存分為內(nèi)核態(tài)和用戶態(tài)兩部分，經(jīng)典比例如下：

從用戶態(tài)到內(nèi)核態(tài)一般通過系統(tǒng)調(diào)用、中斷來實現(xiàn)。用戶態(tài)的內(nèi)存被劃分為不同的區(qū)域用于不同的目的：

當然內(nèi)核態(tài)也不會無差別地使用，所以，其劃分如下：

下面來仔細看這些內(nèi)存是如何管理的。

地址

在Linux內(nèi)部的地址的映射過程為邏輯地址–>線性地址–>物理地址，物理地址最簡單：地址總線中傳輸?shù)臄?shù)字信號，而線性地址和邏輯地址所表示的則是一種轉(zhuǎn)換規(guī)則，線性地址規(guī)則如下：

這部分由MMU完成，其中涉及到主要的寄存器有CR0、CR3。機器指令中出現(xiàn)的是邏輯地址，邏輯地址規(guī)則如下：

在Linux中的邏輯地址等于線性地址，也就是說Inter為了兼容把事情搞得很復雜，Linux簡化順便偷個懶。

內(nèi)存管理的方式

在系統(tǒng)boot的時候會去探測內(nèi)存的大小和情況，在建立復雜的結(jié)構(gòu)之前，需要用一個簡單的方式來管理這些內(nèi)存，這就是bootmem，簡單來說就是位圖，不過其中也有一些優(yōu)化的思路。

bootmem再怎么優(yōu)化，效率都不高，在要分配內(nèi)存的時候畢竟是要去遍歷，buddy系統(tǒng)剛好能解決這個問題：在內(nèi)部保存一些2的冪次大小的空閑內(nèi)存片段，如果要分配3page，去4page的列表里面取一個，分配3個之后將剩下的1個放回去，內(nèi)存釋放的過程剛好是一個逆過程。用一個圖來表示：

可以看到0、4、5、6、7都是正在使用的，那么，1、2被釋放的時候，他們會合并嗎?

static inline unsigned long

__find_buddy_index(unsigned long page_idx, unsigned int order)

{

return page_idx ^ (1 << order);// 更新最高位，0～1互換

}

從上面這段代碼中可以看到，0、1是buddy，2、3是buddy，雖然1、2相鄰，但他們不是。內(nèi)存碎片是系統(tǒng)運行的大敵，伙伴系統(tǒng)機制可以在一定程度上防止碎片~~另外，我們可以通過cat /proc/buddyinfo獲取到各order中的空閑的頁面數(shù)。

伙伴系統(tǒng)每次分配內(nèi)存都是以頁(4KB)為單位的，但系統(tǒng)運行的時候使用的絕大部分的數(shù)據(jù)結(jié)構(gòu)都是很小的，為一個小對象分配4KB顯然是不劃算了。Linux中使用slab來解決小對象的分配：

在運行時，slab向buddy“批發(fā)”一些內(nèi)存，加工切塊以后“散賣”出去。隨著大規(guī)模多處理器系統(tǒng)和NUMA系統(tǒng)的廣泛應(yīng)用，slab終于暴露出不足：

復雜的隊列管理

管理數(shù)據(jù)和隊列存儲開銷較大

長時間運行partial隊列可能會非常長

對NUMA支持非常復雜

為了解決這些高手們開發(fā)了slub：改造page結(jié)構(gòu)來削減slab管理結(jié)構(gòu)的開銷、每個CPU都有一個本地活動的slab(kmem_cache_cpu)等。對于小型的嵌入式系統(tǒng)存在一個slab模擬層slob，在這種系統(tǒng)中它更有優(yōu)勢。

小內(nèi)存的問題算是解決了，但還有一個大內(nèi)存的問題：用伙伴系統(tǒng)分配10 x 4KB的數(shù)據(jù)時，會去16 x 4KB的空閑列表里面去找(這樣得到的物理內(nèi)存是連續(xù)的)，但很有可能系統(tǒng)里面有內(nèi)存，但是伙伴系統(tǒng)分配不出來，因為他們被分割成小的片段。那么，vmalloc就是要用這些碎片來拼湊出一個大內(nèi)存，相當于收集一些“邊角料”，組裝成一個成品后“出售”：

之前的內(nèi)存都是直接映射的，第一次感覺到頁式管理的存在:D 另外對于高端內(nèi)存，提供了kmap方法為page分配一個線性地址。

進程由不同長度的段組成：代碼段、動態(tài)庫的代碼、全局變量和動態(tài)產(chǎn)生數(shù)據(jù)的堆、棧等，在Linux中為每個進程管理了一套虛擬地址空間：

在我們寫代碼malloc完以后，并沒有馬上占用那么大的物理內(nèi)存，而僅僅是維護上面的虛擬地址空間而已，只有在真正需要的時候才分配物理內(nèi)存，這就是COW(COPY-ON-WRITE:寫時復制)技術(shù)，而物理分配的過程就是最復雜的缺頁異常處理環(huán)節(jié)了，下面來看!

缺頁異常

在實際需要某個虛擬內(nèi)存區(qū)域的數(shù)據(jù)之前，和物理內(nèi)存之間的映射關(guān)系不會建立。如果進程訪問的虛擬地址空間部分尚未與頁幀關(guān)聯(lián)，處理器自動引發(fā)一個缺頁異常。在內(nèi)核處理缺頁異常時可以拿到的信息如下：[!--empirenews.page--]

cr2：訪問到線性地址

err_code：異常發(fā)生時由控制單元壓入棧中，表示發(fā)生異常的原因

regs：發(fā)生異常時寄存器的值

處理的流程如下：

發(fā)生缺頁異常的時候，可能因為不常使用而被swap到磁盤上了，swap相關(guān)的命令如下：

如果內(nèi)存是mmap映射到內(nèi)存中的，那么在讀、寫對應(yīng)內(nèi)存的時候也會產(chǎn)生缺頁異常。