搞懂Linux內(nèi)核頁表管理-那些不為人知的秘密
.前言
環(huán)境:
處理器架構(gòu):arm64
內(nèi)核源碼:linux-5.11
ubuntu版本:20.04.1
代碼閱讀工具:vim+ctags+cscope
通用操作系統(tǒng),通常都會開啟mmu來支持虛擬內(nèi)存管理,而頁表管理是在虛擬內(nèi)存管理中尤為重要,本文主要以回答幾個頁表管理中關鍵性問題來解析Linux內(nèi)核頁表管理,看一看頁表管理中那些鮮為人知的秘密。
2.頁表的作用是什么?
1.地址轉(zhuǎn)換
將虛擬地址轉(zhuǎn)換為物理地址
2.權限管理
管理cpu對物理頁的訪問,如讀寫執(zhí)行權限
3.隔離地址空間
隔離各個進程的地址空間,使其互不影響,提供系統(tǒng)的安全性
打開mmu后,對沒有頁表映射的虛擬內(nèi)存訪問或者有頁表映射但是沒有訪問權限都會發(fā)生處理器異常,內(nèi)核選擇殺死進程或者panic;通過頁表給一段內(nèi)存設置用戶態(tài)不可訪問, 這樣可以做到用戶態(tài)的用戶進程不能訪問內(nèi)核地址空間的內(nèi)容;而由于用戶進程各有一套自己的頁表,所以彼此看不到對方的地址空間,更別提訪問,造成每個進程都認為自己擁有所有虛擬內(nèi)存的錯覺;通過頁表給一段內(nèi)存設置只讀屬性,那么就不容許修改這段內(nèi)存內(nèi)容,從而保護了這段內(nèi)存不被改寫;對應用戶進程地址空間映射的物理內(nèi)存,內(nèi)核可以很方便的進行頁面遷移和頁面交換,而對使用虛擬地址的用戶進程來說是透明的;通過頁表,很容易實現(xiàn)內(nèi)存共享,使得一份共享庫很多進程都可以映射到自己地址空間使用;通過頁表,可以小內(nèi)存加載大應用程序運行,在運行時按需加載和映射...
3.頁表的存放在哪?
頁表存放在物理內(nèi)存中,打開mmu之后,如果需要修改頁表,需要將頁表所在的物理地址映射到虛擬地址才能訪問頁表(如內(nèi)核初始化后會將物理內(nèi)存線性映射,這樣通過物理地址和虛擬地址的偏移就可以獲得頁表物理地址對應的虛擬地址)。
4. 頁表項中存放是虛是實?
頁表基地址寄存器和各級頁表項中存放的都是物理地址,而不是虛擬地址。
【文章福利】小編推薦自己的Linux內(nèi)核技術交流群:【891587639】整理了一些個人覺得比較好的學習書籍、視頻資料共享在群文件里面,有需要的可以自行添加哦?。?!前100名進群領取,額外贈送一份價值699的內(nèi)核資料包(含視頻教程、電子書、實戰(zhàn)項目及代碼)? ??


虛擬地址轉(zhuǎn)換物理地址的過程:打開mmu后,cpu訪問的都是虛擬地址,當cpu訪問一個虛擬地址的時候,會通過cpu內(nèi)部的mmu來查詢物理地址,mmu首先通過虛擬地址在tlb中查找,如果找到相應表項,直接獲得物理地址;如果tlb沒有找到,就會通過虛擬地址從頁表基地址寄存器保存的頁表基地址開始查詢多級頁表,最終查詢到找到相應表項,會將表項緩存到tlb中,然后從表項中獲得物理地址。

6. Linux內(nèi)核為何使用多級頁表?
1.使用一級頁表結(jié)構(gòu)優(yōu)劣:
優(yōu)勢:
只需要2次訪問內(nèi)存(一次訪問頁表,一次訪問數(shù)據(jù)),效率高,實現(xiàn)簡單
劣勢:
需要連續(xù)的大塊內(nèi)存存放每個進程的頁表(如32位系統(tǒng)每個進程需要4M頁表),浪費內(nèi)存,虛擬內(nèi)存越大頁表越大,內(nèi)存碎片化的時候很難分配到連續(xù)大塊內(nèi)存,大多數(shù)虛擬內(nèi)存并沒有使用。
2.使用多級頁表結(jié)構(gòu)優(yōu)劣:
優(yōu)勢:
1.節(jié)省內(nèi)存
2.可以按需分配各級頁表
3.可以離散存儲頁表
劣勢:
需要遍歷多級頁表,需要多次訪問內(nèi)存,實現(xiàn)復雜度高點
3.Linux內(nèi)核綜合考慮:
典型的以時間換空間,可以將各級頁表放到物理內(nèi)存的任何地方,無論是硬件遍歷還是內(nèi)核遍歷,比一級頁表更復雜,但是為了節(jié)省內(nèi)存,內(nèi)核選擇多級頁表結(jié)構(gòu)。
7.減小多級頁表遍歷的優(yōu)化?
1.mmu中添加tlb
來緩存最近訪問的頁表表項,根據(jù)程序的時間和空間的局部性原理,tlb能有很高的命中率。
2.使用巨型頁
減少訪存次數(shù)(如使用1G或2M巨型頁),可以減少tlb miss和缺頁異常。
8. 硬件做了哪些事情?
遍歷頁表,將va轉(zhuǎn)換為pa,頁面權限管理
涉及到的硬件為:
mmu->功能:查詢tlb或者遍歷頁表
tlb->功能:緩存最近轉(zhuǎn)換的頁表條目頁表基地址寄存器 如ttbr0_el1 ttbr1_el1 ->功能:存放頁表基地址(物理地址)作為mmu遍歷多級頁表的起點
mmu進行多級頁表遍歷時當發(fā)現(xiàn)虛擬地址的最高bit為1時使用 ttbr1_el1作為遍歷起點,最高bit為0時使用 ttbr0_el1作為遍歷起點。
9. 軟件做了哪些事情?
1.應用程序
訪問虛擬內(nèi)存即可如執(zhí)行指令、讀寫內(nèi)存, 沒有權限管理頁表
不管虛擬內(nèi)存如何轉(zhuǎn)換為物理內(nèi)存,對應用來說透明。
2.Linux內(nèi)核
填寫頁表,將頁表基地址告訴mmu
內(nèi)核初始化建立內(nèi)核頁表,實現(xiàn)缺頁異常等機制為用戶任務按需分配并映射頁表。
當然,內(nèi)核也可以遍歷頁表,如缺頁異常時遍歷進程頁表。
10. 內(nèi)核中涉及到的頁表基地址?
內(nèi)核:
idmap_pg_dir 恒等映射頁表(va=pa 映射2M) init_pg_dir 粗粒度內(nèi)核頁表
swapper_pg_dir 主內(nèi)核頁表
用戶:
tsk->mm->pgd 用戶進程fork的時候分配私有的pgd頁,用于保存pgd表項(僅僅分配了第一級頁表)。
11. 頁表填寫/切換時機
1.內(nèi)核頁表填充
內(nèi)核初始化過程:
物理地址 -> 恒等映射(建立恒等映射頁表和粗粒度內(nèi)核頁表) ->打開mmu -> paging_init(建立細粒度的內(nèi)核頁表和內(nèi)存線性映射) -> ...
恒等映射階段:
將恒等映射頁表idmap_pg_dir 地址保存到ttbr0_el1 將 粗粒度內(nèi)核頁表init_pg_dir 地址保存到ttbr1_el1
paging_init階段:
將內(nèi)核主頁表swapper_pg_dir 地址保存到ttbr1_el1 paging_init之后丟棄idmap_pg_dir 和init_pg_dir 頁表的使用。
2.用戶頁表填充
訪問時缺頁填充:
用戶進程訪問已經(jīng)申請的虛擬內(nèi)存時,發(fā)生缺頁,缺頁處理程序中為進程分配各級頁表等物理頁并建立頁表映射關系。 進程切換時切換進程頁表:
switch_mm的時候切換tsk->mm->pgd到ttbr0_el1以及asid 到ttbr1_el1,從而完成了進程地址空間切換。
12.頁表遍歷過程
下面以arm64處理器架構(gòu)多級頁表遍歷作為結(jié)束(使用4級頁表,頁大小為4K):
Linux內(nèi)核中 可以將頁表擴展到5級,分別是頁全局目錄(Page Global Directory, PGD), 頁4級目錄(Page 4th Directory, P4D), 頁上級目錄(Page Upper Directory, PUD),頁中間目錄(Page Middle Directory, PMD),直接頁表(Page Table, PT),而支持arm64的linux使用4級頁表結(jié)構(gòu)分別是 pgd, pud, pmd, pt ,arm64手冊中將他們分別叫做L0,L1,L2,L3級轉(zhuǎn)換表,所以一下使用L0-L3表示各級頁表。
tlb miss時,mmu會進行多級頁表遍歷遍歷過程如下:
mmu根據(jù)虛擬地址的最高位判斷使用哪個頁表基地址寄存器作為起點:當最高位為0時,使用ttbr0_el1作為起點(訪問的是用戶空間地址);當最高位為1時,使用ttbr1_el1作為起點(訪問的是內(nèi)核空間地址) mmu從相應的頁表基地址寄存器中獲得L0轉(zhuǎn)換表基地址。
找到L0級轉(zhuǎn)換表,然后從虛擬地址中獲得L0索引,通過L0索引找到相應的表項(arm64中稱為L0表描述符,內(nèi)核中叫做PGD表項),從表項中獲得L1轉(zhuǎn)換表基地址。
找到L1級轉(zhuǎn)換表,然后從虛擬地址中獲得L1索引,通過L1索引找到相應的表項(arm64中稱為L1表描述符,內(nèi)核中叫做PUD表項),從表項中獲得L2轉(zhuǎn)換表基地址。
找到L2級轉(zhuǎn)換表,然后從虛擬地址中獲得L2索引,通過L2索引找到相應的表項(arm64中稱為L2表描述符,內(nèi)核中叫做PUD表項),從表項中獲得L3轉(zhuǎn)換表基地址。
找到L3級轉(zhuǎn)換表,然后從虛擬地址中獲得L3索引,通過L3索引找到頁表項(arm64中稱為頁描述符,內(nèi)核中叫做頁表項)。
從頁表項中取出物理頁幀號然后加上物理地址偏移(VA[11,0])獲得最終的物理地址。

