一文深入搞懂 mmap 涉及的所有內(nèi)容
內(nèi)存映射,簡(jiǎn)而言之就是將內(nèi)核空間的一段內(nèi)存區(qū)域映射到用戶空間。映射成功后,用戶對(duì)這段內(nèi)存區(qū)域的修改可以直接反映到內(nèi)核空間,相反,內(nèi)核空間對(duì)這段區(qū)域的修改也直接反映用戶空間。那么對(duì)于內(nèi)核空間與用戶空間兩者之間需要大量數(shù)據(jù)傳輸?shù)炔僮鞯脑捫适欠浅8叩摹.?dāng)然,也可以將內(nèi)核空間的一段內(nèi)存區(qū)域同時(shí)映射到多個(gè)進(jìn)程,這樣還可以實(shí)現(xiàn)進(jìn)程間的共享內(nèi)存通信。
系統(tǒng)調(diào)用mmap()就是用來實(shí)現(xiàn)上面說的內(nèi)存映射。最長見的操作就是文件(在Linux下設(shè)備也被看做文件)的操作,可以將某文件映射至內(nèi)存(進(jìn)程空間),如此可以把對(duì)文件的操作轉(zhuǎn)為對(duì)內(nèi)存的操作,以此避免更多的lseek()與read()、write()操作,這點(diǎn)對(duì)于大文件或者頻繁訪問的文件而言尤其受益。
概述
mmap將一個(gè)文件或者其它對(duì)象映射進(jìn)內(nèi)存。文件被映射到多個(gè)頁上,如果文件的大小不是所有頁的大小之和,最后一個(gè)頁不被使用的空間將會(huì)清零。munmap執(zhí)行相反的操作,刪除特定地址區(qū)域的對(duì)象映射。
當(dāng)使用mmap映射文件到進(jìn)程后,就可以直接操作這段虛擬地址進(jìn)行文件的讀寫等操作,不必再調(diào)用read,write等系統(tǒng)調(diào)用。但需注意,直接對(duì)該段內(nèi)存寫時(shí)不會(huì)寫入超過當(dāng)前文件大小的內(nèi)容。
采用共享內(nèi)存通信的一個(gè)顯而易見的好處是效率高,因?yàn)檫M(jìn)程可以直接讀寫內(nèi)存,而不需要任何數(shù)據(jù)的拷貝。對(duì)于像管道和消息隊(duì)列等通信方式,則需要在內(nèi)核和用戶空間進(jìn)行四次的數(shù)據(jù)拷貝,而共享內(nèi)存則只拷貝兩次數(shù)據(jù):一次從輸入文件到共享內(nèi)存區(qū),另一次從共享內(nèi)存區(qū)到輸出文件。實(shí)際上,進(jìn)程之間在共享內(nèi)存時(shí),并不總是讀寫少量數(shù)據(jù)后就解除映射,有新的通信時(shí),再重新建立共享內(nèi)存區(qū)域。而是保持共享區(qū)域,直到通信完畢為止,這樣,數(shù)據(jù)內(nèi)容一直保存在共享內(nèi)存中,并沒有寫回文件。共享內(nèi)存中的內(nèi)容往往是在解除映射時(shí)才寫回文件的。因此,采用共享內(nèi)存的通信方式效率是非常高的。
通常使用mmap()的三種情況:提高I/O效率、匿名內(nèi)存映射、共享內(nèi)存進(jìn)程通信。
用戶空間 mmap()函數(shù) void *mmap(void *start, size_t length, int prot, int flags,int fd, off_t offset),下面就其參數(shù)解釋如下:
start:用戶進(jìn)程中要映射的用戶空間的起始地址,通常為NULL(由內(nèi)核來指定)
length:要映射的內(nèi)存區(qū)域的大小
prot:期望的內(nèi)存保護(hù)標(biāo)志
flags:指定映射對(duì)象的類型
fd:文件描述符(由open函數(shù)返回)
offset:設(shè)置在內(nèi)核空間中已經(jīng)分配好的的內(nèi)存區(qū)域中的偏移,例如文件的偏移量,大小為PAGE_SIZE的整數(shù)倍
返回值:mmap()返回被映射區(qū)的指針,該指針就是需要映射的內(nèi)核空間在用戶空間的虛擬地址

【文章福利】小編推薦自己的Linux內(nèi)核技術(shù)交流群:【749907784】整理了一些個(gè)人覺得比較好的學(xué)習(xí)書籍、視頻資料共享在群文件里面,有需要的可以自行添加哦!?。。ê曨l教程、電子書、實(shí)戰(zhàn)項(xiàng)目及代碼)? ??


內(nèi)存映射的應(yīng)用
X Window服務(wù)器
眾多內(nèi)存數(shù)據(jù)庫如MongoDB操作數(shù)據(jù),就是把文件磁盤內(nèi)容映射到內(nèi)存中進(jìn)行處理,為什么會(huì)提高效率? 很多人不解. 下面就深入分析內(nèi)存文件映射.
通過malloc來分配大內(nèi)存其實(shí)調(diào)用的是mmap,可見在malloc(10)的時(shí)候調(diào)用的是brk, malloc(10 * 1024 * 1024)調(diào)用的是mmap
mmap()用于共享內(nèi)存的兩種方式
使用普通文件提供的內(nèi)存映射:適用于任何進(jìn)程之間;此時(shí),需要打開或創(chuàng)建一個(gè)文件,然后再調(diào)用mmap();典型調(diào)用代碼如下:
使用特殊文件提供匿名內(nèi)存映射:適用于具有親緣關(guān)系的進(jìn)程之間;由于父子進(jìn)程特殊的親緣關(guān)系,在父進(jìn)程中先調(diào)用mmap(),然后調(diào)用fork()。那么在調(diào)用fork()之后,子進(jìn)程繼承父進(jìn)程匿名映射后的地址空間,同樣也繼承mmap()返回的地址,這樣,父子進(jìn)程就可以通過映射區(qū)域進(jìn)行通信了。注意,這里不是一般的繼承關(guān)系。一般來說,子進(jìn)程單獨(dú)維護(hù)從父進(jìn)程繼承下來的一些變量。而mmap()返回的地址,卻由父子進(jìn)程共同維護(hù)。對(duì)于具有親緣關(guān)系的進(jìn)程實(shí)現(xiàn)共享內(nèi)存最好的方式應(yīng)該是采用匿名內(nèi)存映射的方式。此時(shí),不必指定具體的文件,只要設(shè)置相應(yīng)的標(biāo)志即可。
示例
驅(qū)動(dòng)+應(yīng)用
首先在驅(qū)動(dòng)程序分配一頁大小的內(nèi)存,然后用戶進(jìn)程通過mmap()將用戶空間中大小也為一頁的內(nèi)存映射到內(nèi)核空間這頁內(nèi)存上。映射完成后,驅(qū)動(dòng)程序往這段內(nèi)存寫10個(gè)字節(jié)數(shù)據(jù),用戶進(jìn)程將這些數(shù)據(jù)顯示出來。
進(jìn)程間共享內(nèi)存
UNIX訪問文件的傳統(tǒng)方法是用open打開它們, 如果有多個(gè)進(jìn)程訪問同一個(gè)文件, 則每一個(gè)進(jìn)程在自己的地址空間都包含有該文件的副本,這不必要地浪費(fèi)了存儲(chǔ)空間。下圖說明了兩個(gè)進(jìn)程同時(shí)讀一個(gè)文件的同一頁的情形。系統(tǒng)要將該頁從磁盤讀到高速緩沖區(qū)中, 每個(gè)進(jìn)程再執(zhí)行一個(gè)存儲(chǔ)器內(nèi)的復(fù)制操作將數(shù)據(jù)從高速緩沖區(qū)讀到自己的地址空間。

現(xiàn)在考慮另一種處理方法共享存儲(chǔ)映射: 進(jìn)程A和進(jìn)程B都將該頁映射到自己的地址空間, 當(dāng)進(jìn)程A第一次訪問該頁中的數(shù)據(jù)時(shí), 它生成一個(gè)缺頁中斷。內(nèi)核此時(shí)讀入這一頁到內(nèi)存并更新頁表使之指向它。以后, 當(dāng)進(jìn)程B訪問同一頁面而出現(xiàn)缺頁中斷時(shí), 該頁已經(jīng)在內(nèi)存, 內(nèi)核只需要將進(jìn)程B的頁表登記項(xiàng)指向次頁即可。如下圖所示:

下面就是進(jìn)程A和B共享內(nèi)存的示例。兩個(gè)程序映射同一個(gè)文件到自己的地址空間, 進(jìn)程A先運(yùn)行, 每隔兩秒讀取映射區(qū)域, 看是否發(fā)生變化。進(jìn)程B后運(yùn)行, 它修改映射區(qū)域, 然后退出, 此時(shí)進(jìn)程A能夠觀察到存儲(chǔ)映射區(qū)的變化。
進(jìn)程A的代碼:
進(jìn)程B的代碼:
匿名映射實(shí)現(xiàn)父子進(jìn)程通信
mmap進(jìn)行內(nèi)存映射的原理
mmap系統(tǒng)調(diào)用的最終目的是將設(shè)備或文件映射到用戶進(jìn)程的虛擬地址空間,實(shí)現(xiàn)用戶進(jìn)程對(duì)文件的直接讀寫,這個(gè)任務(wù)可以分為以下三步:
在用戶虛擬地址空間中尋找空閑的滿足要求的一段連續(xù)的虛擬地址空間,為映射做準(zhǔn)備(由內(nèi)核mmap系統(tǒng)調(diào)用完成)
假如vm_area_struct描述的是一個(gè)文件映射的虛存空間,成員vm_file便指向被映射的文件的file結(jié)構(gòu),vm_pgoff是該虛存空間起始地址在vm_file文件里面的文件偏移,單位為物理頁面。mmap系統(tǒng)調(diào)用所完成的工作就是準(zhǔn)備這樣一段虛存空間,并建立vm_area_struct結(jié)構(gòu)體,將其傳給具體的設(shè)備驅(qū)動(dòng)程序.
建立虛擬地址空間和文件或設(shè)備的物理地址之間的映射(設(shè)備驅(qū)動(dòng)完成) 建立文件映射的第二步就是建立虛擬地址和具體的物理地址之間的映射,這是通過修改進(jìn)程頁表來實(shí)現(xiàn)的。mmap方法是file_opeartions結(jié)構(gòu)的成員:int (*mmap)(struct file *,struct vm_area_struct *);
linux有2個(gè)方法建立頁表:
使用remap_pfn_range一次建立所有頁表。int remap_pfn_range(struct vm_area_struct *vma, unsigned long virt_addr, unsigned long pfn, unsigned long size, pgprot_t prot)。
使用nopage VMA方法每次建立一個(gè)頁表項(xiàng)。struct page *(*nopage)(struct vm_area_struct *vma, unsigned long address, int *type);
當(dāng)實(shí)際訪問新映射的頁面時(shí)的操作(由缺頁中斷完成)
page cache及swap cache中頁面的區(qū)分:一個(gè)被訪問文件的物理頁面都駐留在page cache或swap cache中,一個(gè)頁面的所有信息由struct page來描述。struct page中有一個(gè)域?yàn)橹羔榤apping ,它指向一個(gè)struct address_space類型結(jié)構(gòu)。page cache或swap cache中的所有頁面就是根據(jù)address_space結(jié)構(gòu)以及一個(gè)偏移量來區(qū)分的。
文件與 address_space結(jié)構(gòu)的對(duì)應(yīng):一個(gè)具體的文件在打開后,內(nèi)核會(huì)在內(nèi)存中為之建立一個(gè)struct inode結(jié)構(gòu),其中的i_mapping域指向一個(gè)address_space結(jié)構(gòu)。這樣,一個(gè)文件就對(duì)應(yīng)一個(gè)address_space結(jié)構(gòu),一個(gè) address_space與一個(gè)偏移量能夠確定一個(gè)page cache 或swap cache中的一個(gè)頁面。因此,當(dāng)要尋址某個(gè)數(shù)據(jù)時(shí),很容易根據(jù)給定的文件及數(shù)據(jù)在文件內(nèi)的偏移量而找到相應(yīng)的頁面。
進(jìn)程調(diào)用mmap()時(shí),只是在進(jìn)程空間內(nèi)新增了一塊相應(yīng)大小的緩沖區(qū),并設(shè)置了相應(yīng)的訪問標(biāo)識(shí),但并沒有建立進(jìn)程空間到物理頁面的映射。因此,第一次訪問該空間時(shí),會(huì)引發(fā)一個(gè)缺頁異常。
對(duì)于共享內(nèi)存映射情況,缺頁異常處理程序首先在swap cache中尋找目標(biāo)頁(符合address_space以及偏移量的物理頁),如果找到,則直接返回地址;如果沒有找到,則判斷該頁是否在交換區(qū) (swap area),如果在,則執(zhí)行一個(gè)換入操作;如果上述兩種情況都不滿足,處理程序?qū)⒎峙湫碌奈锢眄撁?,并把它插入到page cache中。進(jìn)程最終將更新進(jìn)程頁表。注:對(duì)于映射普通文件情況(非共享映射),缺頁異常處理程序首先會(huì)在page cache中根據(jù)address_space以及數(shù)據(jù)偏移量尋找相應(yīng)的頁面。如果沒有找到,則說明文件數(shù)據(jù)還沒有讀入內(nèi)存,處理程序會(huì)從磁盤讀入相應(yīng)的頁面,并返回相應(yīng)地址,同時(shí),進(jìn)程頁表也會(huì)更新.
所有進(jìn)程在映射同一個(gè)共享內(nèi)存區(qū)域時(shí),情況都一樣,在建立線性地址與物理地址之間的映射之后,不論進(jìn)程各自的返回地址如何,實(shí)際訪問的必然是同一個(gè)共享內(nèi)存區(qū)域?qū)?yīng)的物理頁面。
原文作者:人人極客社區(qū)
