服務(wù)器數(shù)據(jù)恢復(fù)-raid5同步過(guò)程中磁盤離線導(dǎo)致陣列崩潰的數(shù)據(jù)恢復(fù)案例

服務(wù)器數(shù)據(jù)恢復(fù)環(huán)境:
某研究院一臺(tái)DELL存儲(chǔ),15塊硬盤搭建的一組RAID5磁盤陣列。
該RAID5陣列只有一個(gè)卷組,該卷組占用了陣列的全部空間;該卷組只有一個(gè)起始位置為0扇區(qū)的XFS裸分區(qū)。

服務(wù)器故障&初檢&分析:
該RAID5陣列中有一塊硬盤由于未知原因離線,工作人員更換新硬盤,在RAID陣列進(jìn)行數(shù)據(jù)同步的過(guò)程中,陣列中又有一塊磁盤指示燈報(bào)警,磁盤離線,同步失敗,陣列無(wú)法正常工作。
北亞企安數(shù)據(jù)恢復(fù)工程師拿到故障存儲(chǔ)后,將存儲(chǔ)中所有磁盤編號(hào)取出做硬件故障檢測(cè)。初步檢測(cè)結(jié)果:最先離線的硬盤訪問(wèn)速度異常緩慢,后離線的磁盤有少量壞扇區(qū),其他磁盤沒(méi)有發(fā)現(xiàn)明顯物理故障。
因?yàn)镽AID5磁盤陣列只支持一塊硬盤離線時(shí)的冗余保護(hù),如果有第二塊磁盤離線,陣列便無(wú)法正常工作。根據(jù)用戶描述,該RAID5陣列崩潰的主要是由在同步過(guò)程中離線的第二塊磁盤造成,所以第二塊磁盤的處理是關(guān)鍵。

服務(wù)器數(shù)據(jù)恢復(fù)過(guò)程:
1、將所有完好硬盤做只讀鏡像的備份,用專業(yè)工具對(duì)第二塊離線硬盤做備份。備份完成后將所有磁盤按照編號(hào)還原到原存儲(chǔ)中,后續(xù)的數(shù)據(jù)分析和數(shù)據(jù)恢復(fù)操作都基于鏡像文件進(jìn)行,避免對(duì)原始數(shù)據(jù)造成二次破壞。
2、對(duì)15塊硬盤的鏡像文件進(jìn)行異或測(cè)試,測(cè)試全部通過(guò),沒(méi)有發(fā)現(xiàn)錯(cuò)誤。
3、北亞企安數(shù)據(jù)恢復(fù)工程師計(jì)算第二塊離線硬盤損壞扇區(qū)位置的數(shù)據(jù),并將其寫入到鏡像文件。
4、根據(jù)備份過(guò)程中分析出來(lái)的原RAID5結(jié)構(gòu)信息虛擬重構(gòu)RAID陣列,驗(yàn)證RAID結(jié)構(gòu)的正確性。
5、將第二塊離線磁盤的鏡像備份到新硬盤,將該新硬盤強(qiáng)制上線。更換第一塊離線磁盤,并對(duì)其進(jìn)行同步。
6、同步完成后,由用戶方工程師對(duì)恢復(fù)出來(lái)的數(shù)據(jù)進(jìn)行檢測(cè)。經(jīng)過(guò)檢測(cè),目錄結(jié)構(gòu)完整,重要文檔完好,F(xiàn)SCK無(wú)任何錯(cuò)誤提示,用戶方確認(rèn)恢復(fù)數(shù)據(jù)完整可用,認(rèn)可恢復(fù)結(jié)果。
7、將恢復(fù)出來(lái)的數(shù)據(jù)遷移到用戶方準(zhǔn)備好的環(huán)境中。本次數(shù)據(jù)恢復(fù)工作完成。
服務(wù)器數(shù)據(jù)恢復(fù)結(jié)論:
異或測(cè)試通過(guò)表明該存儲(chǔ)發(fā)生故障后沒(méi)有新的數(shù)據(jù)寫入或結(jié)構(gòu)有過(guò)改動(dòng)。
根據(jù)其他幾塊完好的硬盤數(shù)據(jù)計(jì)算出壞硬盤對(duì)應(yīng)位置的數(shù)據(jù)。
