深入探索Linux虛擬化KVM-Qemu分析之CPU虛擬化
說明:
KVM版本:5.9.1
QEMU版本:5.0.0
工具:Source Insight 3.5, Visio
1. 概述
本文圍繞ARMv8 CPU的虛擬化展開;
本文會結(jié)合Qemu + KVM的代碼分析,捋清楚上層到底層的脈絡(luò);
本文會提供一個Sample Code,用于類比Qemu和KVM的關(guān)系,總而言之,大同小異,大題小做,大道至簡,大功告成,大恩不言謝;
先來兩段前戲。
1.1 CPU工作原理
AI的世界,程序的執(zhí)行不再冰冷,CPU對a.out
說,hello啊,world已經(jīng)ok啦,下來return吧!
既然要說CPU的虛擬化,那就先簡要介紹一下CPU的工作原理:

CPU的根本任務(wù)是執(zhí)行指令,我們常說的
取指-譯碼-執(zhí)行-訪存-寫回
,就是典型的指令Pipeline操作;從CPU的功能出發(fā),可以簡要分成三個邏輯模塊:
Control Unit
:CPU的指揮中心,協(xié)調(diào)數(shù)據(jù)的移動;ALU
:運(yùn)算單元,執(zhí)行CPU內(nèi)部所有的計算;Register
:寄存器和Cache
,都算是CPU內(nèi)部的存儲單元,其中寄存器可用于存儲需要被譯碼和執(zhí)行的指令、數(shù)據(jù)、地址等;CPU從內(nèi)存中讀取指令進(jìn)行譯碼并執(zhí)行,執(zhí)行的過程中需要去訪問內(nèi)存中的數(shù)據(jù),CPU內(nèi)部的寄存器可以暫存中間的指令和數(shù)據(jù)等信息,通常說的CPU的
context
指的就是CPU寄存器值;
在硬件支持虛擬化之前,Qemu純軟件虛擬化方案,是通過tcg(tiny code generator)
的方式來進(jìn)行指令翻譯,翻譯成Host處理器架構(gòu)的指令來執(zhí)行。硬件虛擬化技術(shù),是讓虛擬機(jī)能直接執(zhí)行在Host CPU上,讓Host CPU直接來執(zhí)行虛擬機(jī),結(jié)合CPU的實(shí)際工作原理,應(yīng)該怎么來理解呢?來張圖:

CPU通過
pc
寄存器獲取下一條執(zhí)行指令,進(jìn)行取指譯碼執(zhí)行等操作,因此給定CPU一個Context,自然就能控制其執(zhí)行某些代碼;CPU的虛擬化,最終目標(biāo)讓虛擬機(jī)執(zhí)行在CPU上,無非也是要進(jìn)行CPU的Context切換,控制CPU去執(zhí)行對應(yīng)的代碼,下文會進(jìn)一步闡述;
既然都講CPU了,那就捎帶介紹下ARMv8的寄存器吧:
通用寄存器:

圖中描述的是
EL3
以下,AArch32
與AArch64
寄存器對應(yīng)關(guān)系;AArch64
中,總共31個通用寄存器,64bit的為X0-X30,32bit的為W0-W30;
特殊用途寄存器:

這些特殊用途的寄存器,主要分為三種:1)存放異常返回地址的
ELR_ELx
;2)各個EL的棧指針SP_ELx
;3)CPU的狀態(tài)相關(guān)寄存器;
CPU的狀態(tài)
PSTATE
:

CPU的狀態(tài)在
AArch32
時是通過CPSR
來獲取,在AArch64
中,使用PSTATE
,PSTATE
不是一個寄存器,它表示的是保存當(dāng)前CPU狀態(tài)信息的一組寄存器或一些標(biāo)志信息的統(tǒng)稱;
好了,ARMv8的介紹該打住了,否則要跑偏了。。。
【文章福利】小編推薦自己的Linux內(nèi)核技術(shù)交流群:【749907784】整理了一些個人覺得比較好的學(xué)習(xí)書籍、視頻資料共享在群文件里面,有需要的可以自行添加哦?。。。ê曨l教程、電子書、實(shí)戰(zhàn)項目及代碼)? ?


1.2 guest模式

Linux系統(tǒng)有兩種執(zhí)行模式:kernel模式與user模式,為了支持虛擬化功能的CPU,KVM向Linux內(nèi)核提供了guest模式,用于執(zhí)行虛擬機(jī)系統(tǒng)非I/O的代碼;
user模式,對應(yīng)的是用戶態(tài)執(zhí)行,Qemu程序就執(zhí)行在user模式下,并循環(huán)監(jiān)聽是否有I/O需要模擬處理;
kernel模式,運(yùn)行kvm模塊代碼,負(fù)責(zé)將CPU切換到VM的執(zhí)行,其中包含了上下文的load/restore;
guest模式,本地運(yùn)行VM的非I/O代碼,在某些異常情況下會退出該模式,Host OS開始接管;
好了啦,前戲結(jié)束,開始直奔主題吧。
2. 流程分析
不管你說啥,我上來就是一句中國共產(chǎn)黨萬歲,對不起,跑題了。我上來就是一張Qemu初始化流程圖:

看過Qemu源代碼的人可能都有種感覺,一開始看好像摸不到門框,這圖簡要畫了下關(guān)鍵模塊的流程;
Qemu的源代碼,后續(xù)的文章會詳細(xì)介紹,本文只focus在
vcpu
相關(guān)部分;
除了找到了qemu_init_vcpu
的入口,這張圖好像跟本文的vcpu的虛擬化關(guān)系不是很大,不管了,就算是給后續(xù)的Qemu分析打個廣告吧。
2.1 vcpu的創(chuàng)建
2.1.1 qemu中vcpu創(chuàng)建

Qemu初始化流程圖中,找到了
qemu_init_vcpu
的入口,順著這個qemu_init_vcpu
就能找到與底層KVM模塊交互的過程;Qemu中為每個vcpu創(chuàng)建了一個線程,操作設(shè)備節(jié)點(diǎn)來創(chuàng)建和初始化vcpu;
所以,接力棒甩到了KVM內(nèi)核模塊。
2.1.2 kvm中vcpu創(chuàng)建
來一張前文的圖:

前文中分析過,系統(tǒng)在初始化的時候會注冊字符設(shè)備驅(qū)動,設(shè)置好了各類操作函數(shù)集,等待用戶層的
ioctl
來進(jìn)行控制;Qemu
中設(shè)置KVM_CREATE_VCPU
,將觸發(fā)kvm_vm_ioctl_create_vcpu
的執(zhí)行,完成vcpu的創(chuàng)建工作;

在底層中進(jìn)行vcpu的創(chuàng)建工作,主要是分配一個
kvm_vcpu
結(jié)構(gòu),并且對該結(jié)構(gòu)中的字段進(jìn)行初始化;其中有一個用于與應(yīng)用層進(jìn)行通信的數(shù)據(jù)結(jié)構(gòu)
struct kvm_run
,分配一頁內(nèi)存,應(yīng)用層會調(diào)用mmap來進(jìn)行映射,并且會從該結(jié)構(gòu)中獲取到虛擬機(jī)的退出原因;kvm_arch_vcpu_create
主要完成體系架構(gòu)相關(guān)的初始化,包括timer,pmu,vgic等;create_hyp_mappings
將kvm_vcpu
結(jié)構(gòu)體建立映射,以便在Hypervisor
模式下能訪問該結(jié)構(gòu);create_vcpu_fd
注冊了kvm_vcpu_fops
操作函數(shù)集,針對vcpu進(jìn)行操作,Qemu
中設(shè)置KVM_ARM_VCPU_INIT
,將觸發(fā)kvm_arch_vcpu_ioctl_vcpu_init
的執(zhí)行,完成的工作主要是vcpu的核心寄存器,系統(tǒng)寄存器等的reset操作,此外還包含了上層設(shè)置下來的值,放置在struct kvm_vcpu_init
中;
2.2 vcpu的執(zhí)行
2.2.1 qemu中vcpu的執(zhí)行

Qemu
中為每一個vcpu創(chuàng)建一個用戶線程,完成了vcpu的初始化后,便進(jìn)入了vcpu的運(yùn)行,而這是通過kvm_cpu_exec
函數(shù)來完成的;kvm_cpu_exec
函數(shù)中,調(diào)用kvm_vcpu_ioctl(,KVM_RUN,)
來讓底層的物理CPU進(jìn)行運(yùn)行,并且監(jiān)測VM的退出,而這個退出原因就是存在放在kvm_run->exit_reason
中,也就是上文中提到過的應(yīng)用層與底層交互的機(jī)制;
2.2.2 kvm中vcpu的執(zhí)行
用戶層通過KVM_RUN
命令,將觸發(fā)KVM模塊中kvm_arch_vcpu_ioctl_run
函數(shù)的執(zhí)行:

vcpu最終是要放置在物理CPU上執(zhí)行的,很顯然,我們需要進(jìn)行context的切換:保存好Host的Context,并切換到Guest的Context去執(zhí)行,最終在退出時再恢復(fù)回Host的Context;
__guest_enter
函數(shù)完成最終的context切換,進(jìn)入Guest的執(zhí)行,當(dāng)Guest退出時,fixup_guest_exit
將會處理exit_code
,判斷是否繼續(xù)返回Guest執(zhí)行;當(dāng)最終Guest退出到Host時,Host調(diào)用
handle_exit
來處理異常退出,根據(jù)kvm_get_exit_handler
去查詢異常處理函數(shù)表對應(yīng)的處理函數(shù),最終進(jìn)行執(zhí)行處理;
3. Sample Code
上文已經(jīng)將Qemu+KVM的CPU的虛擬化大概的輪廓已經(jīng)介紹了,方方面面,問題不大;
來一段Sample Code類比Qemu和KVM的關(guān)系,在Ubuntu16.04系統(tǒng)上進(jìn)行測試;
簡要介紹一下:
tiny_kernel.S,相當(dāng)于Qemu中運(yùn)行的Guest OS,完成的功能很簡單,沒錯,就是
Hello, world
打印;tiny_qemu.c,相當(dāng)于Qemu,用于加載Guest到vCPU上運(yùn)行,最終通過kvm放到物理CPU上運(yùn)行;
魯迅在1921年的時候,說過這么一句話:Talk is cheap, show me the code
。
tiny_kernel.S
:
tiny_qemu.c
:
為了表明我沒有騙人,上一張在Ubuntu16.04的虛擬機(jī)上運(yùn)行的結(jié)果圖吧:

原文作者:LoyenWang
