手把手教你攔截系統(tǒng)調用(超級詳細)
一、什么是系統(tǒng)調用
系統(tǒng)調用 是內核提供給應用程序使用的功能函數(shù),由于應用程序一般運行在 用戶態(tài),處于用戶態(tài)的進程有諸多限制(如不能進行 I/O 操作),所以有些功能必須由內核代勞完成。而內核就是通過向應用層提供 系統(tǒng)調用,來完成一些在用戶態(tài)不能完成的工作。
說白了,系統(tǒng)調用其實就是函數(shù)調用,只不過調用的是內核態(tài)的函數(shù)。但與普通的函數(shù)調用不同,系統(tǒng)調用不能使用 call 指令來調用,而是需要使用 軟中斷 來調用。在 Linux 系統(tǒng)中,系統(tǒng)調用一般使用 int 0x80 指令(x86)或者 syscall 指令(x64)來調用。
下面我們以 int 0x80 指令(x86)調用方式為例,來說明系統(tǒng)調用的原理。
二、系統(tǒng)調用原理
在 Linux 內核中,使用 sys_call_table 數(shù)組來保存所有系統(tǒng)調用,sys_call_table 數(shù)組每一個元素代表著一個系統(tǒng)調用的入口,其定義如下:
當應用程序需要調用一個系統(tǒng)調用時,首先需要將要調用的系統(tǒng)調用號(也就是系統(tǒng)調用所在 sys_call_table 數(shù)組的索引)放置到 eax 寄存器中,然后通過使用 int 0x80 指令觸發(fā)調用 0x80 號軟中斷服務。
0x80 號軟中斷服務,會通過以下代碼來調用系統(tǒng)調用,如下所示:
上面的代碼會根據(jù) eax 寄存器中的值來調用正確的系統(tǒng)調用,其過程如下圖所示:

三、系統(tǒng)調用攔截
了解了系統(tǒng)調用的原理后,要攔截系統(tǒng)調用就很簡單了。那么如何攔截呢?
做法就是:我們只需要把 sys_call_table 數(shù)組的系統(tǒng)調用換成我們自己編寫的函數(shù)入口即可。比如,我們想要攔截 write() 系統(tǒng)調用,那么只需要將 sys_call_table 數(shù)組的第一個元素換成我們編寫好的函數(shù)(因為 write() 系統(tǒng)調用在 sys_call_table 數(shù)組的索引為1)。
要修改 sys_call_table 數(shù)組元素的值,步驟如下:
1. 獲取 sys_call_table 數(shù)組的地址
要修改 sys_call_table 數(shù)組元素的值,一般需要通過內核模塊來完成。因為用戶態(tài)程序由于內存保護機制,不能改寫內核態(tài)的數(shù)據(jù)。而內核模塊運行在內核態(tài),所以能夠跳過這個限制。
要修改 sys_call_table 數(shù)組元素的值,首先要獲取 sys_call_table 數(shù)組的虛擬內存地址(由于 sys_call_table 變量不是一個導出符號,所以內核模塊不能直接使用)。
要獲取 sys_call_table 數(shù)組的虛擬內存地址有兩種方法:
【文章福利】小編推薦自己的Linux內核技術交流群:【891587639】整理了一些個人覺得比較好的學習書籍、視頻資料共享在群文件里面,有需要的可以自行添加哦?。?!前100名進群領取,額外贈送一份價值699的內核資料包(含視頻教程、電子書、實戰(zhàn)項目及代碼)?
?


第一種方法:從 System.map 文件中讀取
System.map 是一份內核符號表,包含了內核中的變量名和函數(shù)名地址,在每次編譯內核時,自動生成。獲取 sys_call_table 數(shù)組的虛擬地址使用如下命令:
結果如下圖所示:

從上圖可知,sys_call_table 數(shù)組的虛擬地址為:ffffffff818001c0。
第二種方法:通過 kallsyms_lookup_name() 函數(shù)來獲取
從 System.map 文件中讀取的方法不是很優(yōu)雅,所以內核提供了一個名為 kallsyms_lookup_name() 的函數(shù)來獲取內核變量和內核函數(shù)的虛擬內存地址。
kallsyms_lookup_name() 函數(shù)的使用很簡單,只需要傳入要獲取虛擬內存地址的變量名即可,如下代碼所示:
2. 設置 sys_call_table 數(shù)組為可寫狀態(tài)
是不是獲取到 sys_call_table 數(shù)組的虛擬地址就可以修改其元素的值呢?沒那么簡單。
由于 sys_call_table 數(shù)組處于寫保護區(qū)域,并不能直接修改其內容。但有兩種方法可以將寫保護暫時關閉,如下:
第一種方法:將 cr0 寄存器的第 16 位設置為零
cr0 控制寄存器的第 16 位是寫保護位,若設置為零,則允許超級權限往內核中寫入數(shù)據(jù)。這樣我們可以在修改 sys_call_table 數(shù)組的值前,將 cr0 寄存器的第 16 位清零,使其可以修改 sys_call_table 數(shù)組的內容。當修改完后,又將那一位復原即可。
代碼如下:
第二種方法:設置虛擬地址對應頁表項的讀寫屬性
由于 x86 CPU 的內存保護機制是通過虛擬內存頁表來實現(xiàn)的,所以我們只需要把 sys_call_table 數(shù)組的虛擬內存頁表項中的保護標志位清空即可,代碼如下:
3. 修改 sys_call_table 數(shù)組的內容
萬事俱備,只欠東風。前面我們把準備工作都做完了,現(xiàn)在只需要把 sys_call_table 數(shù)組中的系統(tǒng)調用入口替換成我們編寫的函數(shù)入口即可。
我們可以在內核模塊初始化函數(shù)修改 sys_call_table 數(shù)組的值,然后在內核模塊退出函數(shù)改回成原來的值即可,完整代碼如下:
在上面代碼中,我們將 perf_event_open() 系統(tǒng)調用替換成了我們自己實現(xiàn)的函數(shù)。
注意:測試時最好使用冷門的系統(tǒng)調用,否則可能會導致系統(tǒng)崩潰。
4. 編寫 Makefile 文件
為了編譯方便,我們編寫一個 Makefile 文件來進行編譯,如下所示:
要注意添加 EXTRA_CFLAGS= -O0 關閉 gcc 優(yōu)化選項,避免插入模塊出錯。
5. 測試程序
現(xiàn)在,我們編寫一個測試程序來測試一下系統(tǒng)調用攔截是否成功,代碼如下:
6. 運行結果
第一步:安裝攔截內核模塊
使用以下命令安裝內核模塊:
然后通過 dmesg 命令來觀察系統(tǒng)日志,可以看到以下輸出:
這說明我們的內核模塊安裝成功。
第二步:運行測試程序
接著,我們運行剛才編寫的測試程序,然后觀察系統(tǒng)日志,輸出如下:
這說明攔截系統(tǒng)調用成功了。
