手機(jī)站首頁(yè)散文詩(shī)歌雜文隨筆日記小小說(shuō)

散文網(wǎng) » 科技 »學(xué)習(xí) » 帶你玩轉(zhuǎn)Linux內(nèi)核內(nèi)存管理--段機(jī)制原理（超詳細(xì)）

帶你玩轉(zhuǎn)Linux內(nèi)核內(nèi)存管理--段機(jī)制原理（超詳細(xì)）

2022-03-31 15:38 作者:補(bǔ)給站Linux內(nèi)核 0人讀過(guò) | 我要投稿

這篇文章主要說(shuō)一下linux對(duì)于分段機(jī)制的處理，雖然都說(shuō)linux不使用分段機(jī)制，但是分段機(jī)制屬于CPU的一個(gè)功能，即使linux不使用，也要通過(guò)代碼想辦法繞過(guò)它，況且linux也使用到了分段機(jī)制中的某些功能。

分段機(jī)制主要功能只有兩點(diǎn)：

將物理內(nèi)存劃分為多個(gè)段，讓操作系統(tǒng)可以使用大于其地址線對(duì)應(yīng)的物理內(nèi)存(比如正常情況下32位地址線可以訪問(wèn)4G大小的內(nèi)存，但是有分段后則可訪問(wèn)大于4G的內(nèi)存)。
權(quán)限控制，將每個(gè)段設(shè)置權(quán)限位，讓不同的程序訪問(wèn)不同的段。

對(duì)于linux內(nèi)核來(lái)說(shuō)，它僅僅只使用了分段機(jī)制中的權(quán)限控制功能，具體我們可以一起看看是如何做的。

一、CPU的段寄存器

在CPU中，跟段有關(guān)的CPU寄存器一共有6個(gè)：cs，ss，ds，es，fs，gs，它們保存的是段選擇符。而同時(shí)這六個(gè)寄存器每個(gè)都有一個(gè)對(duì)應(yīng)的非編程寄存器，它們對(duì)應(yīng)的非編程寄存器中保存的是段描述符。系統(tǒng)可以把同一個(gè)寄存器用于不同的目的，方法是先將其寄存器中的值保存到內(nèi)存中，之后恢復(fù)。而在系統(tǒng)中最主要的是cs，ds，ss這三個(gè)寄存器。

CS 代碼段寄存器：指向包含程序指令的段，在CS寄存器中RPL用于表示當(dāng)前CPU的特權(quán)級(jí)(CPL)，CPL為0是最高權(quán)限(內(nèi)核態(tài)使用)，CPL為3是用戶態(tài)使用。
SS棧段寄存器：指向當(dāng)前程序的棧的段。
DS 數(shù)據(jù)段寄存器：指向保存著靜態(tài)數(shù)據(jù)和全局?jǐn)?shù)據(jù)的段(靜態(tài)區(qū))。

在段寄存器中主要保存的是段選擇符，它的長(zhǎng)度是16位，具體如下：

索引號(hào)(index)：所對(duì)應(yīng)的段描述符處于GDT或LDT中的索引。
TI：TI=0表示對(duì)應(yīng)段描述符保存在GDT(全局描述符表)中，TI=1表示對(duì)應(yīng)的段描述符保存在LDT(局部描述符表)中。
RPL：當(dāng)此對(duì)應(yīng)的段選擇符裝入cs寄存器時(shí)，設(shè)置CPU當(dāng)前的特權(quán)級(jí)的值為RPL，也就是cs寄存器中的RPL就是CPL。

段選擇符主要用途就是根據(jù)段索引號(hào)和TI標(biāo)志，去到GDT或者LDT中找到這個(gè)選擇符對(duì)應(yīng)的段描述符，比如我們?cè)趦?nèi)核代碼中常見的__KERNEL_CS，__KERNEL_DS，__USER_CS，__USER_DS就是段選擇符，它們并不是段描述符。

【文章福利】小編推薦自己的Linux內(nèi)核技術(shù)交流群:【891587639】整理了一些個(gè)人覺得比較好的學(xué)習(xí)書籍、視頻資料共享在群文件里面，有需要的可以自行添加哦?。?！前100名進(jìn)群領(lǐng)取，額外贈(zèng)送一份價(jià)值699的內(nèi)核資料包（含視頻教程、電子書、實(shí)戰(zhàn)項(xiàng)目及代碼)?

全局描述符表和局部描述符表保存的都是段描述符，記住要把段描述符和段選擇符區(qū)別開來(lái)，保存在寄存器中的是段選擇符，這個(gè)段選擇符會(huì)到描述符表中獲取對(duì)于的段描述符，然后將段描述符保存到對(duì)應(yīng)寄存器的非編程寄存器中。
系統(tǒng)中每個(gè)CPU有屬于自己的一個(gè)全局描述符表(GDT)，其所在內(nèi)存的基地址和其大小一起保存在CPU的gdtr寄存器中。其大小為64K，一共可保存8192個(gè)段描述符，不過(guò)第一個(gè)一般都會(huì)置空，也就是能保存8191個(gè)段描述符。第一個(gè)置空的原因是防止加電后段寄存器未經(jīng)初始化就進(jìn)入保護(hù)模式而使用GDT。
而對(duì)于局部描述符表，CPU設(shè)定是每個(gè)進(jìn)程可以創(chuàng)建屬于自己的局部描述符表(LDT)，當(dāng)前被使用的LDT的基地址和大小一起保存在ldtr寄存器中。不過(guò)大多數(shù)用戶態(tài)的liunx程序都不使用局部描述符表，所以linux內(nèi)核只定義了一個(gè)缺省的LDT供大多數(shù)進(jìn)程共享。描述這個(gè)局部描述符表的局部描述符表描述符保存在GDT中。

對(duì)于表中的段描述符我們簡(jiǎn)單說(shuō)幾個(gè)特別的：

TLS段描述符：中文名字是局部線程存儲(chǔ)段，這個(gè)會(huì)允許線程擁有自己的段，不過(guò)一般程序不經(jīng)常會(huì)用到的，系統(tǒng)調(diào)用set_thread_area()與get_thread_area()為當(dāng)前進(jìn)程創(chuàng)建和撤銷一個(gè)TLS段。
TSS段描述符：叫做任務(wù)狀態(tài)段，這個(gè)描述符非常重要，每個(gè)處理器包含一個(gè)自己的tss段，這個(gè)tss段中的主要數(shù)據(jù)是一個(gè)tss_struct結(jié)構(gòu)體，linux會(huì)將所有CPU的tss_struct結(jié)構(gòu)體以init_tss數(shù)組的形式保存起來(lái)，這個(gè)tss_struct結(jié)構(gòu)體中保存的時(shí)當(dāng)前運(yùn)行進(jìn)程的內(nèi)核態(tài)堆棧棧頂?shù)刂泛彤?dāng)前進(jìn)程的IO許可權(quán)限位。當(dāng)進(jìn)程切換時(shí)就會(huì)設(shè)置CPU的tss_struct結(jié)構(gòu)體，CPU就可以從tss_struct中獲取當(dāng)前進(jìn)程的內(nèi)核棧和IO許可權(quán)限。
kernel code，kernel data，user code，user data：分別是內(nèi)核代碼段描述符，內(nèi)核數(shù)據(jù)段描述符，用戶代碼段描述符，用戶數(shù)據(jù)段描述符，不同的進(jìn)程會(huì)使用同一個(gè)用戶代碼段/數(shù)據(jù)段描述符，這個(gè)也之后介紹

三、段描述符

段描述符就是保存在全局描述符表或者局部描述符表中，當(dāng)某個(gè)段寄存器試圖通過(guò)自己的段選擇符獲取對(duì)于的段描述符時(shí)，會(huì)將獲取到的段描述符放到自己的非編程寄存器中，這樣就不用每次訪問(wèn)段都要跑到內(nèi)存中的段描述符表中獲取。

BASE(32位)：段首地址的線性地址。
G：為0代表此段長(zhǎng)度以字節(jié)為單位，為1代表此段長(zhǎng)度以4K為單位。
LIMIT(20位)：此最后一個(gè)地址的偏移量，也相當(dāng)于長(zhǎng)度，G=0，段大小在1~1MB，G=1，段大小為4KB~4GB。
S：為0表示是系統(tǒng)段，否則為代碼段或數(shù)據(jù)段。
Type：描述段的類型和存取權(quán)限。
DPL：描述符特權(quán)級(jí)，表示訪問(wèn)這個(gè)段CPU要求的最小優(yōu)先級(jí)(保存在cs寄存器的CPL特權(quán)級(jí))，當(dāng)DPL為0時(shí)，只有CPL為0才能訪問(wèn)，DPL為3時(shí)，CPL為0為3都可以訪問(wèn)這個(gè)段。
P：表示此段是否被交換到磁盤，總是置為1，因?yàn)閘inux不會(huì)把一個(gè)段都交換到磁盤中。
D或B：如果段的LIMIT是32位長(zhǎng)，則置1，如果是16位長(zhǎng)，置0。(詳見intel手冊(cè))
AVL：忽略。

數(shù)據(jù)段描述符：

表示這個(gè)段描述符代表一個(gè)數(shù)據(jù)段，這種描述符可以放在GDT或者LDT。該描述符的S標(biāo)志位為1，也就是非系統(tǒng)段。需要注意內(nèi)核數(shù)據(jù)段屬于數(shù)據(jù)段描述符，并不屬于系統(tǒng)段描述符。

代碼段描述符：

表示這個(gè)段描述符代表一個(gè)數(shù)據(jù)段，這種描述符可以放在GDT或者LDT。該描述符的S標(biāo)志位為1，也就是非系統(tǒng)段。需要注意內(nèi)核代碼段屬于代碼段描述符，并不屬于系統(tǒng)段描述符。
系統(tǒng)段描述符：
此描述符代表一個(gè)系統(tǒng)段，Type的值代表了是哪一種系統(tǒng)段，S標(biāo)志位為0。其中以下兩種都是系統(tǒng)段
局部描述符表描述符(LDTD，系統(tǒng)段描述符的一種)：
此種描述符代表一個(gè)包含有LDT的段，它只能保存在GDT中，相應(yīng)的Type為2，S為0。
任務(wù)狀態(tài)段描述符(TSSD，系統(tǒng)段描述符的一種)：
這個(gè)描述符代表一個(gè)任務(wù)狀態(tài)段(TSS)，這個(gè)段用于保存部分處理器寄存器的內(nèi)容(內(nèi)核態(tài)棧地址和IO許可權(quán)限位)，它只保存在GDT中，根據(jù)相應(yīng)的進(jìn)程是否正在CPU上運(yùn)行，其Type字段的值分別為11或9.這個(gè)描述符S標(biāo)志為0。
在所有段描述符中可能大家最關(guān)心的就是內(nèi)核代碼段描述符和內(nèi)核數(shù)據(jù)段描述符以及用戶代碼段描述符和用戶數(shù)據(jù)段描述符了，這里也具體說(shuō)說(shuō)這幾個(gè)描述符，它們的構(gòu)成如下：

可以看出來(lái)它們的S都是1，都是非系統(tǒng)段，注意并不是內(nèi)核用的段就是系統(tǒng)段，這里的系統(tǒng)段的區(qū)分不是我們用戶態(tài)和內(nèi)核態(tài)的這種劃分。所有的用戶進(jìn)程都是使用同一個(gè)用戶代碼段描述符和用戶數(shù)據(jù)段描述符，它們是__USER_CS和__USER_DS，也就是每個(gè)進(jìn)程處于用戶態(tài)時(shí)，它們的CS寄存器和DS寄存器中的值是相同的。當(dāng)任何進(jìn)程或者中斷異常進(jìn)入內(nèi)核后，都是使用相同的內(nèi)核代碼段描述符和內(nèi)核數(shù)據(jù)段描述符，它們是__KERNEL_CS和__KERNEL_DS。這里要明確記得，內(nèi)核數(shù)據(jù)段實(shí)際上就是內(nèi)核態(tài)堆棧段。
還可以看出這幾個(gè)段的BASE都是0x00000000，LIMIT都是0xfffff，并且G為1。也就是說(shuō)，用戶代碼段，用戶數(shù)據(jù)段，內(nèi)核代碼段，內(nèi)核數(shù)據(jù)段這四個(gè)段它們的尋址地址都是0x00000000~0xffffffff。也就是地址0到4G的大小。這也形成了為什么所有進(jìn)程都可以使用同一個(gè)用戶代碼段和用戶數(shù)據(jù)段的條件。并且很清楚地可以看出，內(nèi)核代碼段和內(nèi)核數(shù)據(jù)段都需要CPL為0時(shí)才能訪問(wèn)，而用戶代碼段和用戶數(shù)據(jù)段在CPL為0或者3時(shí)都可以訪問(wèn)。
再看看這4個(gè)段描述符對(duì)應(yīng)的段選擇符：

可以看出來(lái)，它們的TI為0，表示都保存在全局段描述符表中?？赡芸吹竭@里大家會(huì)有個(gè)疑問(wèn)，既然用戶段的RPL為3，那怎么去訪問(wèn)DPL為0的內(nèi)核段呢，這就是linux精明的地方，它就是禁止用戶態(tài)訪問(wèn)內(nèi)核態(tài)的數(shù)據(jù)，但是內(nèi)核為用戶態(tài)開了兩個(gè)小門，然用戶態(tài)能夠通過(guò)這兩個(gè)小門進(jìn)入到內(nèi)核態(tài)中，這兩個(gè)小門就是系統(tǒng)調(diào)用與中斷和異常。
快速訪問(wèn)段描述符：
先看一下系統(tǒng)是如何將邏輯地址轉(zhuǎn)換為線性地址的：

邏輯地址是由段選擇符(16位) + 段內(nèi)偏移量offset(32位)得來(lái)。之前也說(shuō)到，只有處于用戶態(tài)，CS和DS寄存器中的值都是__USER_CS和__USER_DS。只要處于內(nèi)核態(tài)，CS和DS寄存器中的值都是__KERNEL_CS和__KERNEL_DS。在我們編程過(guò)程中，實(shí)際上提供的地址都是一個(gè)偏移量，系統(tǒng)會(huì)自動(dòng)將這個(gè)偏移量與CS中的段選擇符進(jìn)行結(jié)合。也就是我們使用的邏輯地址實(shí)際上只使用了offset這一段，段選擇符都為空。之前也說(shuō)了這四個(gè)段描述符的BASE都為0x00000000，也得出當(dāng)邏輯地址通過(guò)這樣的分段機(jī)制轉(zhuǎn)為線性地址后，實(shí)際上并沒有變化，也就是邏輯地址=線性地址(其實(shí)這兩個(gè)地址都是offset的值)。
也可以看出來(lái)，每次進(jìn)行地址轉(zhuǎn)換時(shí)都要通過(guò)段描述符獲取段的基地址然后與偏移量運(yùn)算得到線性地址，而段描述符是保存在內(nèi)存當(dāng)中的，這樣每次轉(zhuǎn)換難道就要訪問(wèn)一次內(nèi)存或者cache嗎？當(dāng)然不是，之前說(shuō)到一共有6種段寄存器，它們每個(gè)都有屬于自己的一個(gè)非編程寄存器，專門用于存放現(xiàn)在的段描述符，比如拿cs段寄存器說(shuō)，cs寄存器存放的是段選擇符，所以每次通過(guò)邏輯地址訪問(wèn)這個(gè)段里的內(nèi)容時(shí)，都要通過(guò)這個(gè)段選擇符與gdtr(段描述符保存在全局描述符表中)或者ldtr(段描述符保存在局部描述符表中)結(jié)合然后從內(nèi)存中得到對(duì)應(yīng)的段描述符，然后根據(jù)段描述符的BASE和LIMIT將邏輯地址轉(zhuǎn)換為線性地址。如果進(jìn)行連續(xù)訪問(wèn)時(shí)(而且連續(xù)訪問(wèn)的概率非常高)，這樣的效率就非常低了，這個(gè)cs段寄存器對(duì)應(yīng)的非編程寄存器就是用于保存這個(gè)段描述符的，這樣就不用每次都從內(nèi)存中獲取段描述符，而是直接從這個(gè)CS對(duì)應(yīng)的非編程寄存器中獲取段描述符。

四、任務(wù)狀態(tài)段(TSS)
任務(wù)狀態(tài)段的段選擇符保存在tr寄存器中，內(nèi)核為每個(gè)CPU準(zhǔn)備了一個(gè)任務(wù)狀態(tài)段，其主要保存的是當(dāng)前進(jìn)程的IO許可權(quán)限位和棧頂指針，其作用主要有兩個(gè)：
進(jìn)程從用戶態(tài)切換到內(nèi)核態(tài)時(shí)，系統(tǒng)會(huì)從該CPU的TSS中獲取該進(jìn)程的內(nèi)核態(tài)堆棧地址。
當(dāng)用戶態(tài)進(jìn)程試圖通過(guò)in或out指令訪問(wèn)一個(gè)IO端口時(shí)，CPU需要訪問(wèn)存放在TSS中的IO許可權(quán)限位以檢查該進(jìn)程是否有權(quán)限訪問(wèn)該IO端口。
TSS段的保存形式是一個(gè)tss_struct結(jié)構(gòu)體，系統(tǒng)會(huì)將所有CPU的tss_struct結(jié)構(gòu)體組成一個(gè)init_tss數(shù)組的形式進(jìn)行保存，我們具體看一下tss_struct結(jié)構(gòu)體：

五、中斷或異常發(fā)生時(shí)的段切換
其實(shí)發(fā)生段的切換有兩種情況，一種是系統(tǒng)調(diào)用發(fā)生時(shí)，一種是中斷或異常發(fā)生時(shí)，但是這兩種情況都大同小異，這里我們只拿中斷異常發(fā)生的情況進(jìn)行說(shuō)明。
這里只說(shuō)明系統(tǒng)大多數(shù)發(fā)生的情況，不討論個(gè)例。假定當(dāng)前系統(tǒng)處于用戶態(tài)執(zhí)行代碼中，這時(shí)候各個(gè)段寄存器的值應(yīng)該是這樣的：
CS: __USER_CS
DS: __USER_DS
SS: 保存著用戶態(tài)?；刂?/p>
ESP: 保存著用戶態(tài)棧頂?shù)刂?/p>
EIP: 保存下條將要執(zhí)行的指令地址
當(dāng)中斷或異常發(fā)生時(shí)，CPU會(huì)按照如下步驟進(jìn)行執(zhí)行：
讀取由idtr寄存器保存的IDT(中斷向量表)中對(duì)應(yīng)的門描述符。
根據(jù)對(duì)應(yīng)的門描述符，獲取其中保存的段選擇符。
根據(jù)這個(gè)段選擇符獲取對(duì)于的段描述符(門描述符中保存的段選擇符基本都是__KERNEL_CS)。
這時(shí)CPU會(huì)使用CS寄存器中的CPL特權(quán)級(jí)與獲取的段描述符的DPL特權(quán)級(jí)比較，如果DPL<=CPL，則通過(guò)，否則產(chǎn)生“通用保護(hù)”異常，我們也看到，我們CS保存的是__USER_CS，其CPL為3，門描述符中保存的是__KERNEL_CS，其DPL為0,；也就是會(huì)通過(guò)檢查。
如果是異常情況，這時(shí)還會(huì)多一步進(jìn)行檢查，會(huì)檢查門描述符中的DPL特權(quán)級(jí)，當(dāng)前特權(quán)級(jí)CPL的值 > DPL的值時(shí)，則通過(guò)檢查，否則不能通過(guò)檢查，而只有系統(tǒng)門和系統(tǒng)中斷門的DPL是3，其他的異常門的DPL都為0。這樣做的好處是避免了用戶程序訪問(wèn)陷阱門、中斷門和任務(wù)門。
到這里檢查已經(jīng)通過(guò)，如果特權(quán)級(jí)發(fā)生變化(用戶態(tài)產(chǎn)生的中斷和異常，肯定會(huì)發(fā)生特權(quán)級(jí)變化)，則CPU會(huì)自動(dòng)幫切換不同特權(quán)級(jí)使用的寄存器。
從tr寄存器中獲取CPU的TSS段，從TSS段中獲取當(dāng)前進(jìn)程的內(nèi)核態(tài)堆棧指針和SS寄存器的值并將它們裝載到SS和EIP寄存器。
在當(dāng)前進(jìn)程的內(nèi)核棧中保存用戶態(tài)的SS寄存器和ESP寄存器的值。(注意，這里是先裝載了SS和ESP寄存器，讓其指向內(nèi)核棧，再在內(nèi)核棧中保存用戶態(tài)的SS和ESP寄存器值)
如果故障已經(jīng)發(fā)生，用引起異常的指令地址裝載到CS和EIP寄存器，從而使這條指令再次被執(zhí)行。
在內(nèi)核棧中保存用戶態(tài)的eflags、CS和EIP。CS和EIP的值就是返回后的下一條指令地址。如果有硬件出錯(cuò)碼，也保存到內(nèi)核棧中。
從中斷向量表的門中獲取CS和EIP值并裝載到CS和EIP寄存器。門中保存的CS和EIP合起來(lái)就會(huì)是中斷處理程序入口地址。
這些步驟執(zhí)行完后，寄存器變化為：
CS: __KERNEL_CS
DS: __USER_DS
SS: 保存著內(nèi)核態(tài)棧基地址
ESP: 保存著內(nèi)核態(tài)棧頂?shù)刂?/p>
EIP: 保存著中斷處理程序入口地址
而內(nèi)核棧中保存的值有：用戶態(tài)CS，用戶態(tài)SS，用戶態(tài)ESP，用戶態(tài)EIP，用戶態(tài)eflags。當(dāng)系統(tǒng)從中斷返回用戶態(tài)時(shí)，就會(huì)從內(nèi)核棧中將這些值還原，最后會(huì)回到進(jìn)入時(shí)的情況。至于為什么不用修改DS寄存器的值，我也不清楚。

標(biāo)簽：

帶你玩轉(zhuǎn)Linux內(nèi)核內(nèi)存管理--段機(jī)制原理（超詳細(xì)）的評(píng)論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩(shī)歌空間日志經(jīng)典語(yǔ)句愛情句子作文大全

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

帶你玩轉(zhuǎn)Linux內(nèi)核內(nèi)存管理--段機(jī)制原理（超詳細(xì)）

一、CPU的段寄存器

三、段描述符

數(shù)據(jù)段描述符：

代碼段描述符：

系統(tǒng)段描述符：

四、任務(wù)狀態(tài)段(TSS)

五、中斷或異常發(fā)生時(shí)的段切換

帶你玩轉(zhuǎn)Linux內(nèi)核內(nèi)存管理--段機(jī)制原理（超詳細(xì)）的評(píng)論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

最美情侣中文字幕电影,在线麻豆精品传媒,在线网站高清黄,久久黄色视频

帶你玩轉(zhuǎn)Linux內(nèi)核內(nèi)存管理--段機(jī)制原理（超詳細(xì)）

一、CPU的段寄存器

三、段描述符

數(shù)據(jù)段描述符：

代碼段描述符：

系統(tǒng)段描述符：

四、任務(wù)狀態(tài)段(TSS)

五、中斷或異常發(fā)生時(shí)的段切換

本文作者的其他文章

帶你玩轉(zhuǎn)Linux內(nèi)核內(nèi)存管理--段機(jī)制原理（超詳細(xì)）的評(píng)論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

一、CPU的段寄存器

三、段描述符

五、中斷或異常發(fā)生時(shí)的段切換

帶你玩轉(zhuǎn)Linux內(nèi)核內(nèi)存管理--段機(jī)制原理（超詳細(xì)）的評(píng)論 (共條)