【vsan數(shù)據(jù)恢復(fù)】vsan分布式存儲數(shù)據(jù)恢復(fù)案例

vsan數(shù)據(jù)恢復(fù)環(huán)境:
一組4臺服務(wù)器搭建vsan集群;
每臺服務(wù)器配置有2組分別由6塊硬盤組成的磁盤陣列,上層是虛擬機(jī)文件。

vsan故障:
在運(yùn)行過程中,某一個節(jié)點(diǎn)的一塊硬盤離線,vsan安全機(jī)制啟動,開始重構(gòu)&遷移數(shù)據(jù)。在數(shù)據(jù)遷移過程中機(jī)房意外斷電,數(shù)據(jù)重構(gòu)失敗,服務(wù)器重啟,該節(jié)點(diǎn)的另一組磁盤陣列中的2塊磁盤由于異常斷電引發(fā)故障離線,從而讓整個分布式存儲癱瘓,上層所有虛擬機(jī)無法訪問。

vsan數(shù)據(jù)恢復(fù)過程:
1、把+vsan集群所有節(jié)點(diǎn)上的硬盤以只讀方式做鏡像備份,備份完成后將硬盤按照原樣還原到原始環(huán)境,后續(xù)的數(shù)據(jù)恢復(fù)操作都基于鏡像文件進(jìn)行,避免對數(shù)據(jù)造成二次破壞。
2、基于鏡像文件分析底層數(shù)據(jù),分析上層虛擬機(jī)所在磁盤位置的數(shù)據(jù)分布信息。使用北亞自研的針對vsan架構(gòu)下的虛擬化數(shù)據(jù)恢復(fù)輔助程序驗證數(shù)據(jù)分布信息的準(zhǔn)確性。
3、再次分析每個節(jié)點(diǎn)上的兩個磁盤陣列,搞清楚每個磁盤陣列內(nèi)部的硬盤對應(yīng)關(guān)系。
4、在每塊硬盤上獲取磁盤的UUID和所在磁盤陣列的UUID。
5、根據(jù)每個磁盤陣列中的容量盤的組件信息中記錄的組件的MAP位置提取組件位圖。
6、根據(jù)組件位圖提取組件數(shù)據(jù)和緩存數(shù)據(jù)。
7、根據(jù)組件的描述信息獲取組件所屬對象及組件順序并合并組件為對象。
8、根據(jù)對象提取數(shù)據(jù)。提取出所有數(shù)據(jù)后經(jīng)服務(wù)器數(shù)據(jù)恢復(fù)工程師驗證無異常,聯(lián)系用戶親自進(jìn)行驗證,確認(rèn)所有數(shù)據(jù)完整可用,本次數(shù)據(jù)恢復(fù)任務(wù)完成。
