服務(wù)器數(shù)據(jù)恢復(fù)-RAID6多塊硬盤離線的數(shù)據(jù)恢復(fù)案例

服務(wù)器數(shù)據(jù)恢復(fù)環(huán)境:
一臺infortrend存儲,有一組由12塊硬盤組建的RAID6,RAID6的所有空間劃分給一個LUN并映射到WINDOWS系統(tǒng)上,WINDOWS系統(tǒng)上劃分了一個GPT分區(qū)。

服務(wù)器故障&分析:
存儲無法訪問,經(jīng)過檢查發(fā)現(xiàn)存儲中有3個磁盤離線。工作人員通過一系列操作讓存儲掉線磁盤上線并開始rebuild,但是這個時候發(fā)現(xiàn)分區(qū)打不開,所有數(shù)據(jù)無法訪問。為避免情況進(jìn)一步惡化,工作人員中止了rebuild并關(guān)機(jī)。
經(jīng)過當(dāng)?shù)氐臄?shù)據(jù)恢復(fù)機(jī)構(gòu)進(jìn)行恢復(fù)后,還是有大量數(shù)據(jù)丟失和無法打開。?
RAID6可以支持兩塊硬盤同時掉線,但如果有第三塊磁盤離線,RAID6便無法正常工作了。最常見的一種情況是RAID6離線硬盤不是同時離線,而是每間隔一段時間就有一塊磁盤離線。在這種情況下,如果將早掉線的盤上線,便會與還在線的盤進(jìn)行RAID6算法同步,導(dǎo)致數(shù)據(jù)出現(xiàn)問題,無法正常讀取數(shù)據(jù)。
本案例應(yīng)該就是屬于這種情況。因為rebuild時間較短,本案例存儲中的文件數(shù)量非常多,文件系統(tǒng)前部分存放老舊數(shù)據(jù)的可能性比較大大,一些較新的文件的目錄及節(jié)點索引很大可能性存放于文件系統(tǒng)后部分,所以推測同步操作對存儲中的數(shù)據(jù)影響不大,破壞程度有限。

服務(wù)器數(shù)據(jù)恢復(fù)過程:
1、將故障存儲中所有磁盤編號后取出(應(yīng)在關(guān)機(jī)狀態(tài)下插拔硬盤,對硬盤原位置進(jìn)行標(biāo)注。在硬盤離開存儲后,不要再對存儲加電。確保所有操作盡可能可回溯。),以只讀方式做扇區(qū)級別的鏡像備份。對于部分存在物理故障的硬盤,交由硬件工程師處理后利用專業(yè)工具進(jìn)行鏡像。備份完成后將所有硬盤按照編號還原到原存儲中,后續(xù)的數(shù)據(jù)分析和數(shù)據(jù)恢復(fù)操作都基于鏡像文件進(jìn)行,避免對原始磁盤數(shù)據(jù)造成二次破壞。
2、基于鏡像文件分析該infortrend存儲所使用的的RAID6算法,按算法對12塊硬盤做C(12,2)共66種可能的缺2盤的情況組合,找出可能性最大的缺盤組合。
3、通過北亞R企安自研的RAID數(shù)據(jù)恢復(fù)程序重構(gòu)虛擬RAID,按分析出的缺盤狀態(tài)、盤序、塊大小、校驗方向、RAID6算法構(gòu)建進(jìn)行附加。
4、對虛擬RAID進(jìn)行GPT分區(qū)結(jié)構(gòu)解釋,然后對文件系統(tǒng)進(jìn)行解釋,確定算法是否正確。如不正確,調(diào)整算法,直到得到最佳結(jié)構(gòu)。
5、按文件或扇區(qū)方式遷移數(shù)據(jù)到準(zhǔn)備好的存儲中,由用戶方對恢復(fù)出來的數(shù)據(jù)進(jìn)行檢測。經(jīng)過反復(fù)檢測,用戶方工程師確認(rèn)恢復(fù)出來的數(shù)據(jù)完整有效。本次服務(wù)器數(shù)據(jù)恢復(fù)工作完成。
