【服務(wù)器數(shù)據(jù)恢復(fù)】PowerEdge服務(wù)器RAID5數(shù)據(jù)恢復(fù)案例

服務(wù)器數(shù)據(jù)恢復(fù)環(huán)境:
北京某科技大學(xué),某品牌PowerEdge系列某型號服務(wù)器,6塊SAS硬盤組成RAID5;
操作系統(tǒng)REDHAT,文件系統(tǒng)EXT3,分區(qū)采用LVM方式,存儲著該大學(xué)某研究室運算1年多的重要數(shù)據(jù)。

未知原因?qū)е路?wù)器崩潰。管理員進入RAID控制界面檢查發(fā)現(xiàn)1號盤與6號盤狀態(tài)顯示損壞。咨詢服務(wù)器原廠工程師后,管理員強制上線6號盤,結(jié)果raid無法啟動(操作系統(tǒng)也安裝于此RAID)。管理員意識到問題嚴重性,馬上停止所有操作。
根據(jù)用戶的描述及故障表現(xiàn),北亞服務(wù)器數(shù)據(jù)恢復(fù)工程師推斷本案例中的RAID5陣列中應(yīng)該有一塊硬盤早離線,這時候磁盤陣列還能正常工作,后來又有一塊硬盤離線,從而導(dǎo)致RAID陣列崩潰。按照管理員的描述,6號盤早離線,1號盤后離線。
如果上面的推斷屬實,1號盤只要能正常讀取即可恢復(fù)全部的數(shù)據(jù)。但管理員強制上線6號盤,可能會導(dǎo)致文件系統(tǒng)不一致,引起其他盤的數(shù)據(jù)發(fā)生變更。
經(jīng)過研究,北亞數(shù)據(jù)恢復(fù)工程師敲定了恢復(fù)數(shù)據(jù)的思路:
首先檢測所有硬盤狀態(tài),分析RAID信息,剔除掉陳舊數(shù)據(jù)盤。根據(jù)分析出來的RAID信息重組RAID,讀取數(shù)據(jù);或直接以EXT3的模式恢復(fù)數(shù)據(jù)。

1、服務(wù)器數(shù)據(jù)恢復(fù)工程師拿到故障服務(wù)器硬盤后以只讀方式對所有硬盤做鏡像備份,使用不含RAID功能的SAS適配器作為物理連接進行備份。后續(xù)數(shù)據(jù)恢復(fù)操作都在備份文件上進行,避免對數(shù)據(jù)造成二次傷害。
2、基于鏡像文件對RAID結(jié)構(gòu)進行分析,獲取到原始RAID相關(guān)信息。
3、對RAID進行一致性校驗,結(jié)果發(fā)現(xiàn)大量的不匹配。
4、從6塊盤中剔除掉陳舊盤。但此時發(fā)現(xiàn)前部分區(qū)結(jié)構(gòu)的內(nèi)容錯誤,應(yīng)該為強制上線6號盤所導(dǎo)致的問題。
5、修正硬盤結(jié)構(gòu),將LVM改為普通分區(qū)指引。
6、通過北亞自主研發(fā)軟件解釋EXT3并讀取數(shù)據(jù),以SAMBA方式導(dǎo)出至LINUX EXT3目標(biāo)分區(qū)。到此步數(shù)據(jù)恢復(fù)已經(jīng)完成。
7、經(jīng)過用戶親自檢測沒有發(fā)現(xiàn)問題,協(xié)助用戶把數(shù)據(jù)導(dǎo)入準(zhǔn)備好的環(huán)境中,一切正常。
