Linux 內(nèi)存管理機(jī)制簡介
在Linux中經(jīng)常發(fā)現(xiàn)空閑內(nèi)存很少,似乎所有的內(nèi)存都被系統(tǒng)占用了,表面感覺是內(nèi)存不夠用了,其實(shí)不然。這是Linux內(nèi)存管理的一個優(yōu)秀特性,在這方面,區(qū)別于 Windows的內(nèi)存管理。主要特點(diǎn)是,無論物理內(nèi)存有多大,Linux 都將其充份利用,將一些程序調(diào)用過的硬盤數(shù)據(jù)讀入內(nèi)存,利用內(nèi)存讀寫的高速特性來提高Linux系統(tǒng)的數(shù)據(jù)訪問性能。而Windows 是只在需要內(nèi)存時,才為應(yīng)用程序分配內(nèi)存,并不能充分利用大容量的內(nèi)存空間。換句話說,每增加一些物理內(nèi)存,Linux 都將能充分利用起來,發(fā)揮了硬件投資帶來的好處,而Windows只將其做為擺設(shè),即使增加8GB甚至更大。
Linux 的這一特性,主要是利用空閑的物理內(nèi)存,劃分出一部份空間,做為 cache 和 buffers ,以此提高數(shù)據(jù)訪問性能。
1、什么是 cache ?
頁高速緩存(cache)是 Linux內(nèi)核實(shí)現(xiàn)的一種主要磁盤緩存。它主要用來減少對磁盤的I/O操作。具體地講,是通過把磁盤中的數(shù)據(jù)緩存到物理內(nèi)存中,把對磁盤的訪問變?yōu)閷ξ锢韮?nèi)存的訪問。
磁盤高速緩存的價值在于兩個方面:第一,訪問磁盤的速度要遠(yuǎn)遠(yuǎn)低于訪問內(nèi)存的速度,因此,從內(nèi)存訪問數(shù)據(jù)比從磁盤訪問速度更快。第二,數(shù)據(jù)一旦被訪問,就很有可能在短期內(nèi)再次被訪問到。
頁高速緩存是由內(nèi)存中的物理頁組成的,緩存中每一頁都對應(yīng)著磁盤中的多個塊。每當(dāng)內(nèi)核開始執(zhí)行一個頁I/O操作時(通常是對普通文件中頁大小的塊進(jìn)行磁盤操作),首先會檢查需要的數(shù)據(jù)是否在高速緩存中,如果在,那么內(nèi)核就直接使用高速緩存中的數(shù)據(jù),從而避免訪問磁盤。
舉個例子,當(dāng)使用文本編輯器打開一個源程序文件時,該文件的數(shù)據(jù)就被調(diào)入內(nèi)存。編輯該文件的過程中,越來越多的數(shù)據(jù)會相繼被調(diào)入內(nèi)存頁。最后,當(dāng)你編譯它的時候,內(nèi)核可以直接使用頁高速緩存中的頁,而不需要重新從磁盤讀取該文件了。因?yàn)橛脩敉鶗磸?fù)讀取或操作同一個文件,所以頁高速緩存能減少大量的磁盤操作。
2、cache 如何更新?
由于頁高速緩存的緩存作用,寫操作實(shí)際上會被延遲。當(dāng)頁高速緩存中的數(shù)據(jù)比后臺存儲的數(shù)據(jù)更新時,那么該數(shù)據(jù)就被稱做臟數(shù)據(jù)。在內(nèi)存中累積起來的臟頁最終必須被寫回磁盤。在以下兩種情況發(fā)生時,臟頁被寫回磁盤:
◆當(dāng)空閑內(nèi)存低于一個特定的閾值時,內(nèi)核必須將臟頁寫回磁盤,以便釋放內(nèi)存。
◆當(dāng)臟頁在內(nèi)存中駐留時間超過一個特定的閾值時,內(nèi)核必須將超時的臟頁寫回磁盤,以確保臟頁不會無限期地駐留在內(nèi)存中。
在2.6內(nèi)核中,由一群內(nèi)核線程—pdflush后臺回寫例程統(tǒng)一執(zhí)行兩種工作。
首先,pdflush線程在系統(tǒng)中的空閑內(nèi)存低于一個特定的閾值時,將臟頁刷新回磁盤。該后臺回寫例程的目的在于在可用物理內(nèi)存過低時,釋放臟頁以重新獲得內(nèi)存。特定的內(nèi)存閾值可以通過dirty_background_ratio sysctl系統(tǒng)調(diào)用設(shè)置。當(dāng)空閑內(nèi)存比閾值:dirty_background_ratio還低時,內(nèi)核便會調(diào)用函數(shù)wakeup_bdflush()喚醒一個pdflush線程,隨后pdflush線程進(jìn)一步調(diào)用函數(shù)background_writeout()開始將臟頁寫回磁盤。函數(shù)background_ writeout()需要一個長整型參數(shù),該參數(shù)指定試圖寫回的頁面數(shù)目。函數(shù)background_writeout()會連續(xù)地寫出數(shù)據(jù),直到滿足以下兩個條件:
◆已經(jīng)有指定的最小數(shù)目的頁被寫出到磁盤。
◆空閑內(nèi)存數(shù)已經(jīng)回升,超過了閾值dirty_background_ratio。
上述條件確保了pdflush操作可以減輕系統(tǒng)中內(nèi)存不足的壓力?;貙懖僮鞑粫谶_(dá)到這兩個條件前停止,除非pdflush寫回了所有的臟頁,沒有剩下的臟頁可再被寫回了。
為了滿足第二個目標(biāo),pdflush后臺例程會被周期性喚醒(和空閑內(nèi)存是否過低無關(guān)),將那些在內(nèi)存中駐留時間過長的臟頁寫出,確保內(nèi)存中不會有長期存在的臟頁。如果系統(tǒng)發(fā)生崩潰,由于內(nèi)存處于混亂之中,所以那些在內(nèi)存中還沒來得及寫回磁盤的臟頁就會丟失,所以周期性同步頁高速緩存和磁盤非常重要。在系統(tǒng)啟動時,內(nèi)核初始化一個定時器,讓它周期地喚醒pdflush線程,隨后使其運(yùn)行函數(shù)wb_kupdate()。