當(dāng)前位置:首頁 > 芯聞號 > 充電吧
[導(dǎo)讀]Linux的mmap文件內(nèi)存映射機(jī)制在講述文件映射的概念時, 不可避免的要牽涉到虛存(SVR 4的VM). 實際上, 文件映射是虛存的中心概念, 文件映射一方面給用戶提供了一組措施, 好似用戶將文件映

Linux的mmap文件內(nèi)存映射機(jī)制

在講述文件映射的概念時, 不可避免的要牽涉到虛存(SVR 4的VM). 實際上, 文件映射是虛存的中心概念, 文件映射一方面給用戶提供了一組措施, 好似用戶將文件映射到自己地址空間的某個部分, 使用簡單的內(nèi)存訪問指令讀寫文件;另一方面, 它也可以用于內(nèi)核的基本組織模式, 在這種模式種, 內(nèi)核將整個地址空間視為諸如文件之類的一組不同對象的映射. 中的傳統(tǒng)文件訪問方式是, 首先用open系統(tǒng)調(diào)用打開文件, 然后使用read, write以及l(fā)seek等調(diào)用進(jìn)行順序或者隨即的I/O. 這種方式是非常低效的, 每一次I/O操作都需要一次系統(tǒng)調(diào)用. 另外, 如果若干個進(jìn)程訪問同一個文件, 每個進(jìn)程都要在自己的地址空間維護(hù)一個副本, 浪費了內(nèi)存空間. 而如果能夠通過一定的機(jī)制將頁面映射到進(jìn)程的地址空間中, 也就是說首先通過簡單的產(chǎn)生某些內(nèi)存管理數(shù)據(jù)結(jié)構(gòu)完成映射的創(chuàng)建. 當(dāng)進(jìn)程訪問頁面時產(chǎn)生一個缺頁中斷, 內(nèi)核將頁面讀入內(nèi)存并且更新頁表指向該頁面. 而且這種方式非常方便于同一副本的共享.

VM是面向?qū)ο蟮姆椒ㄔO(shè)計的, 這里的對象是指內(nèi)存對象: 內(nèi)存對象是一個軟件抽象的概念, 它描述內(nèi)存區(qū)與后備存儲之間的映射. 系統(tǒng)可以使用多種類型的后備存儲, 比如交換空 間, 本地或者遠(yuǎn)程文件以及幀緩存等等. VM系統(tǒng)對它們統(tǒng)一處理, 采用同一操作集操作, 比如讀取頁面或者回寫頁面等. 每種不同的后備存儲都可以用不同的方法實現(xiàn)這些操作. 這樣, 系統(tǒng)定義了一套統(tǒng)一的接口, 每種后備存儲給出自己的實現(xiàn)方法. 這樣, 進(jìn)程的地址空間就被視為一組映射到不同數(shù)據(jù)對象上的的映射組成. 所有的有效地址就是那些映射到數(shù)據(jù)對象上的地址. 這些對象為映射它的頁面提供了持久性的后備存儲. 映射使得用戶可以直接尋址這些對象.

值得提出的是, VM體系結(jié)構(gòu)獨立于Unix系統(tǒng), 所有的Unix系統(tǒng)語義, 如正文, 數(shù)據(jù)及堆棧區(qū)都可以建構(gòu)在基本VM系統(tǒng)之上. 同時, VM體系結(jié)構(gòu)也是獨立于存儲管理的, 存儲管理是由操作系統(tǒng)實施的, 如: 究竟采取什么樣的對換和請求調(diào)頁算法, 究竟是采取分段還是分頁機(jī)制進(jìn)行存儲管理, 究竟是如何將虛擬地址轉(zhuǎn)換成為物理地址等等(Linux中是一種叫Three Level Page Table的機(jī)制), 這些都與內(nèi)存對象的概念無關(guān).

下面介紹Linux中 VM的實現(xiàn).

一個進(jìn)程應(yīng)該包括一個mm_struct(memory manage struct), 該結(jié)構(gòu)是進(jìn)程虛擬地址空間的抽象描述, 里面包括了進(jìn)程虛擬空間的一些管理信息: start_code, end_code, start_data, end_data, start_brk, end_brk等等信息. 另外, 也有一個指向進(jìn)程虛存區(qū)表(vm_area_struct: virtual memory area)的指針, 該鏈?zhǔn)前凑仗摂M地址的增長順序排列的. 在Linux進(jìn)程的地址空間被分作許多區(qū)(vma), 每個區(qū)(vma)都對應(yīng)虛擬地址空間上一段連續(xù)的區(qū)域, vma是可以被共享和保護(hù)的獨立實體, 這里的vma就是前面提到的內(nèi)存對象. 下面是vm_area_struct的結(jié)構(gòu), 其中, 前半部分是公共的, 與類型無關(guān)的一些數(shù)據(jù)成員, 如: 指向mm_struct的指針, 地址范圍等等, 后半部分則是與類型相關(guān)的成員, 其中最重要的是一個指向vm_operation_struct向量表的指針vm_ops, vm_pos向量表是一組虛函數(shù), 定義了與vma類型無關(guān)的接口. 每一個特定的子類, 即每種vma類型都必須在向量表中實現(xiàn)這些操作. 這里包括了: open, close, unmap, protect, sync, nopage, wppage, swapout這些操作.

struct vm_area_struct {

/*公共的, 與vma類型無關(guān)的 */

struct mm_struct * vm_mm;

unsigned long vm_start;

unsigned long vm_end;

struct vm_area_struct *vm_next;

pgprot_t vm_page_prot;

unsigned long vm_flags;

short vm_avl_height;

struct vm_area_struct * vm_avl_left;

struct vm_area_struct * vm_avl_right;

struct vm_area_struct *vm_next_share;

struct vm_area_struct **vm_pprev_share;

/* 與類型相關(guān)的 */

struct vm_operations_struct * vm_ops;

unsigned long vm_pgoff;

struct file * vm_file;

unsigned long vm_raend;

void * vm_private_data;

};

vm_ops: open, close, no_page, swapin, swapout……

介紹完VM的基本概念后, 我們可以講述mmap和munmap系統(tǒng)調(diào)用了. mmap調(diào)用實際上就是一個內(nèi)存對象vma的創(chuàng)建過程, mmap的調(diào)用格式是:

void * mmap(void *start, size_t length, int prot , int flags, int fd, off_t offset);

其中start是映射地址, length是映射長度, 如果flags的MAP_FIXED不被置位, 則該參數(shù)通常被忽略, 而查找進(jìn)程地址空間中第一個長度符合的空閑區(qū)域;Fd是映射文件的文件句柄, offset是映射文件中的偏移地址;prot是映射保護(hù)權(quán)限, 可以是PROT_EXEC, PROT_READ, PROT_WRITE, PROT_NONE, flags則是指映射類型, 可以是MAP_FIXED, MAP_PRIVATE, MAP_SHARED, 該參數(shù)必須被指定為MAP_PRIVATE和MAP_SHARED其中之一, MAP_PRIVATE 是創(chuàng)建一個寫時拷貝映射(copy-on-write), 也就是說如果有多個進(jìn)程同時映射到一個文件上, 映射建立時只是共享同樣的存儲頁面, 但是某進(jìn)程企圖修改頁面內(nèi)容, 則復(fù)制一個副本給該進(jìn)程私用, 它的任何修改對其它進(jìn)程都不可見. 而MAP_SHARED則無論修改與否都使用同一副本, 任何進(jìn)程對頁面的修改對其它進(jìn)程都是可見的.

mmap系統(tǒng)調(diào)用的實現(xiàn)過程是:

1.先通過文件系統(tǒng)定位要映射的文件;

2.權(quán)限檢查, 映射的權(quán)限不會超過文件打開的方式, 也就是說如果文件是以只讀方式打開, 那么則不允許建立一個可寫映射;

3.創(chuàng)建一個vma對象, 并對之進(jìn)行初始化;

4.調(diào)用映射文件的mmap函數(shù), 其主要工作是給vm_ops向量表賦值;

5.把該vma鏈入該進(jìn)程的vma鏈表中, 如果可以和前后的vma合并則合并;

6.如果是要求VM_LOCKED(映射區(qū)不被換出)方式映射, 則發(fā)出缺頁請求, 把映射頁面讀入內(nèi)存中.

munmap(void * start, size_t length):

該調(diào)用可以看作是 mmap的一個逆過程. 它將進(jìn)程中從start開始length長度的一段區(qū)域的映射關(guān)閉, 如果該區(qū)域不是恰好對應(yīng)一個vma, 則有可能會分割幾個或幾個vma.

msync(void * start, size_t length, int flags):

把映射區(qū)域的修改回寫到后備存儲中. 因為munmap時并不保證頁面回寫, 如果不調(diào)用msync, 那么有可能在munmap后丟失對映射區(qū)的修改. 其中flags可以是MS_SYNC, MS_ASYNC, MS_INVALIDATE, MS_SYNC要求回寫完成后才返回, MS_ASYNC發(fā)出回寫請求后立即返回, MS_INVALIDATE使用回寫的內(nèi)容更新該文件的其它映射. 該系統(tǒng)調(diào)用是通過調(diào)用映射文件的sync函數(shù)來完成工作的.

brk(void * end_data_segement):

將進(jìn)程的數(shù)據(jù)段擴(kuò)展到 end_data_segement指定的地址, 該系統(tǒng)調(diào)用和mmap的實現(xiàn)方式十分相似, 同樣是產(chǎn)生一個vma, 然后指定其屬性. 不過在此之前需要做一些合法性檢查, 比如該地址是否大于mm->end_code, end_data_segement和mm->brk之間是否還存在其它vma等等. 通過brk產(chǎn)生的vma映射的文件為空, 這和匿名映射產(chǎn)生的vma相似, 關(guān)于匿名映射不做進(jìn)一步介紹. 庫函數(shù)malloc就是通過brk實現(xiàn)的.

Linux提供了內(nèi)存映射函數(shù)mmap, 它把文件內(nèi)容映射到一段內(nèi)存上(準(zhǔn)確說是虛擬內(nèi)存上), 通過對這段內(nèi)存的讀取和修改, 實現(xiàn)對文件的讀取和修改, 先來看一下mmap的函數(shù)聲明:

頭文件:

原型: void *mmap(void *addr, size_t length, int prot, int flags, int fd, off_t offsize);

返回值: 成功則返回映射區(qū)起始地址, 失敗則返回MAP_FAILED(-1).

參數(shù):

addr: 指定映射的起始地址, 通常設(shè)為NULL, 由系統(tǒng)指定.

length: 將文件的多大長度映射到內(nèi)存.

prot: 映射區(qū)的保護(hù)方式, 可以是:

PROT_EXEC: 映射區(qū)可被執(zhí)行.

PROT_READ: 映射區(qū)可被讀取.

PROT_WRITE: 映射區(qū)可被寫入.

PROT_NONE: 映射區(qū)不能存取.

flags: 映射區(qū)的特性, 可以是:

MAP_SHARED: 對映射區(qū)域的寫入數(shù)據(jù)會復(fù)制回文件, 且允許其他映射該文件的進(jìn)程共享.

MAP_PRIVATE: 對映射區(qū)域的寫入操作會產(chǎn)生一個映射的復(fù)制(copy-on-write), 對此區(qū)域所做的修改不會寫回原文件.

此外還有其他幾個flags不很常用, 具體查看linux C函數(shù)說明.

fd: 由open返回的文件描述符, 代表要映射的文件.

offset: 以文件開始處的偏移量, 必須是分頁大小的整數(shù)倍, 通常為0, 表示從文件頭開始映射.

下面說一下內(nèi)存映射的步驟:

用open系統(tǒng)調(diào)用打開文件, 并返回描述符fd.

用mmap建立內(nèi)存映射, 并返回映射首地址指針start.

對映射(文件)進(jìn)行各種操作, 顯示(printf), 修改(sprintf).

用munmap(void *start, size_t lenght)關(guān)閉內(nèi)存映射.

用close系統(tǒng)調(diào)用關(guān)閉文件fd.

注意事項:

在修改映射的文件時, 只能在原長度上修改, 不能增加文件長度, 因為內(nèi)存是已經(jīng)分配好的.

Linux-mmap函數(shù)介紹

mmap函數(shù)是unix/linux下的系統(tǒng)調(diào)用,來看《Unix Netword programming》卷二12.2節(jié)對mmap的介紹:

The mmap function maps either a file or a Posix shared memory object into the address space of a process.We use this function for three purposes:

1. with a regular file to provide memory-mapped I/O

2. with special files to provide anonymous memory mappings

3. with shm_open to provide Posix shared memory between unrelated processes

mmap系統(tǒng)調(diào)用并不是完全為了用于共享內(nèi)存而設(shè)計的。它本身提供了不同于一般對普通文件的訪問方式,進(jìn)程可以像讀寫內(nèi)存一樣對普通文件的操作。而 Posix或系統(tǒng)V的共享內(nèi)存IPC則純粹用于共享目的,當(dāng)然mmap()實現(xiàn)共享內(nèi)存也是其主要應(yīng)用之一。

mmap系統(tǒng)調(diào)用使得進(jìn)程之間通過映射同一個普通文件實現(xiàn)共享內(nèi)存。普通文件被映射到進(jìn)程地址空間后,進(jìn)程可以像訪問普通內(nèi)存一樣對文件進(jìn)行訪問,不必再調(diào)用read(),write()等操作。

我們的程序中大量運用了mmap,用到的正是mmap的這種“像訪問普通內(nèi)存一樣對文件進(jìn)行訪問”的功能。實踐證明,當(dāng)要對一個文件頻繁的進(jìn)行訪問,并且指針來回移動時,調(diào)用mmap比用常規(guī)的方法快很多。

來看看mmap的定義:

void *mmap(void *addr, size_t len, int prot, int flags, int fd, off_t offset);

參數(shù)fd為即將映射到進(jìn)程空間的文件描述字,一般由open()返回,同時,fd可以指定為-1,此時須指定flags參數(shù)中的MAP_ANON,表明進(jìn)行的是匿名映射(不涉及具體的文件名,避免了文件的創(chuàng)建及打開,很顯然只能用于具有親緣關(guān)系的進(jìn)程間通信)。

len是映射到調(diào)用進(jìn)程地址空間的字節(jié)數(shù),它從被映射文件開頭offset個字節(jié)開始算起。

prot參數(shù)指定共享內(nèi)存的訪問權(quán)限??扇∪缦聨讉€值的或:PROT_READ(可讀),PROT_WRITE(可寫),PROT_EXEC(可執(zhí)行),PROT_NONE(不可訪問)。

flags由以下幾個常值指定:MAP_SHARED, MAP_PRIVATE, MAP_FIXED。其中,MAP_SHARED,MAP_PRIVATE必選其一,而MAP_FIXED則不推薦使用。

如果指定為MAP_SHARED,則對映射的內(nèi)存所做的修改同樣影響到文件。如果是MAP_PRIVATE,則對映射的內(nèi)存所做的修改僅對該進(jìn)程可見,對文件沒有影響。

offset參數(shù)一般設(shè)為0,表示從文件頭開始映射。

參數(shù)addr指定文件應(yīng)被映射到進(jìn)程空間的起始地址,一般被指定一個空指針,此時選擇起始地址的任務(wù)留給內(nèi)核來完成。函數(shù)的返回值為最后文件映射到進(jìn)程空間的地址,進(jìn)程可直接操作起始地址為該值的有效地址。

最后,舉個例子來結(jié)束本節(jié)。4.2節(jié)說過,F(xiàn)ileinformation數(shù)組是以二進(jìn)制的形式寫進(jìn)一個叫inforindex的文件中。那么,當(dāng)要訪問 Fileinformation數(shù)組時,代碼類似這樣:

struct stat st;

char buffer=” inforindex”;

Fileinformation *_fileinfoIndexptr = NULL;

if(stat(buffer,&st)<0)

{

fprintf(stderr,"error to stat %sn",buffer);

exit(-1);

}

// mmap the inforindex to _fileinfoIndexptr

int fd=open(buffer, O_RDONLY);

if(fd<0)

{

printf("error to open %sn",buffer);

exit(-1);

}

_fileinfoIndexptr = (Fileinformation*)mmap(NULL,st.st_size, PROT_READ,MAP_SHARED,fd,0);

if(MAP_FAILED == _fileinfoIndexptr)

{

printf("error to mmap %sn",buffer);

close(fd);

exit(-1);

}

close(fd);

下面這個例子顯示了把文件映射到內(nèi)存的方法

源代碼是:

*********************************************************************/

#include /* for mmap and munmap */

#include /* for open */

#include /* for open */

#include /* for open */

#include /* for lseek and write */

#include

int main(int argc, char **argv)

{

int fd;

char *mapped_mem, * p;

int flength = 1024;

void * start_addr = 0;

fd = open(argv[1], O_RDWR | O_CREAT, S_IRUSR | S_IWUSR);

flength = lseek(fd, 1, SEEK_END);

write(fd, "