【服務(wù)器數(shù)據(jù)恢復(fù)】raid5硬盤掉線后強(qiáng)制上線離線硬盤失敗的數(shù)據(jù)恢復(fù)案例

服務(wù)器數(shù)據(jù)恢復(fù)環(huán)境:
某公司網(wǎng)站服務(wù)器,6塊SCSI硬盤組建raid5磁盤陣列;
服務(wù)器上層:linux操作系統(tǒng)+EXT3文件系統(tǒng)。

服務(wù)器故障&分析:
服務(wù)器在工作狀態(tài)下raid5磁盤陣列中的一塊硬盤由于未知原因離線。因?yàn)閞aid5中的一塊硬盤掉線并不會影響磁盤陣列的正常工作,服務(wù)器沒有出現(xiàn)異常,直到該raid5磁盤陣列中又有一塊硬盤掉線,服務(wù)器癱瘓。
管理員發(fā)現(xiàn)服務(wù)故障后,對raid5磁盤陣列進(jìn)行了檢查,但是不能確定這兩塊硬盤的離線順序,抱著碰運(yùn)氣的想法選擇了其中一塊離線硬盤嘗試強(qiáng)制上線操作。將這塊硬盤強(qiáng)制上線后發(fā)現(xiàn)操作系統(tǒng)啟動時(shí)出現(xiàn)異常,為了避免再次對數(shù)據(jù)造成破壞,管理員將服務(wù)器關(guān)機(jī),之后沒有進(jìn)行任何操作。
在過去十多年中,北亞企安數(shù)據(jù)恢復(fù)工程師們經(jīng)常遇到類似的raid5故障:由于發(fā)現(xiàn)不及時(shí)或者第一塊硬盤掉線時(shí)不在意并沒有及時(shí)處理,當(dāng)?shù)诙K硬盤甚至更多的硬盤掉線時(shí),磁盤陣列徹底崩潰。第二塊磁盤掉線后對后離線的硬盤進(jìn)行強(qiáng)制上線具有一定的可操作性行,但是也有很大的風(fēng)險(xiǎn)。
強(qiáng)制上線最好由經(jīng)驗(yàn)豐富的管理員或者數(shù)據(jù)恢復(fù)工程師進(jìn)行操作,而且強(qiáng)制上線之前必須做好備份工作。這個案例就是管理員在沒有備份,也沒有搞清楚硬盤離線順序的情況下進(jìn)行了強(qiáng)制上線操作,最終導(dǎo)致數(shù)據(jù)丟失,服務(wù)器崩潰。

服務(wù)器數(shù)據(jù)恢復(fù)過程:
1、將故障服務(wù)器內(nèi)的所有硬盤編號后取出,以只讀方式對所有硬盤進(jìn)行鏡像備份。后續(xù)的數(shù)據(jù)分析和數(shù)據(jù)恢復(fù)操作都基于鏡像文件進(jìn)行,避免對原始數(shù)據(jù)造成二次破壞。
2、在鏡像過程中發(fā)現(xiàn)除了已經(jīng)掉線的兩塊硬盤外,其他沒有掉線硬盤存在壞道,由于這些硬盤沒有離線所以暫時(shí)沒有進(jìn)行特殊處理。
3、備份完成后基于鏡像文件分析原raid5磁盤陣列的組成結(jié)構(gòu)并虛擬重構(gòu)raid5環(huán)境。
4、由于管理員對磁盤陣列進(jìn)行過強(qiáng)制上線的操作,該操作破壞了部分?jǐn)?shù)據(jù)結(jié)構(gòu)。
5、驗(yàn)證raid5結(jié)構(gòu)后由北亞企安數(shù)據(jù)恢復(fù)工程師手工修復(fù)被破壞的那部分結(jié)構(gòu),導(dǎo)出磁盤陣列內(nèi)的所有數(shù)據(jù)。經(jīng)過數(shù)據(jù)恢復(fù)工程師和管理員的驗(yàn)證,確認(rèn)恢復(fù)出來的數(shù)據(jù)完整有效。
6、在數(shù)據(jù)恢復(fù)工程師的協(xié)助下,管理員在準(zhǔn)備好的服務(wù)器環(huán)境上重新搭建磁盤陣列并遷移數(shù)據(jù)。

服務(wù)器數(shù)據(jù)恢復(fù)Tip:
1、服務(wù)器發(fā)生故障后,切忌對服務(wù)器進(jìn)行操作;也不要隨意取出硬盤,以免弄亂盤序。
2、如果需要取出硬盤,標(biāo)記好硬盤的順序之后再取出。
3、服務(wù)器磁盤陣列癱瘓后應(yīng)該立即斷電,不要做同步或強(qiáng)制上線操作,防止數(shù)據(jù)進(jìn)一步破壞。
4、當(dāng)服務(wù)器由于未知原因的故障而導(dǎo)致系統(tǒng)崩潰或者文件不識別/不可用時(shí),通常不建議盲目地在服務(wù)器上進(jìn)行數(shù)據(jù)分析和數(shù)據(jù)恢復(fù)操作。如果確實(shí)對自己的數(shù)據(jù)恢復(fù)技術(shù)有自信,必須先對原服務(wù)器的所有硬盤數(shù)據(jù)進(jìn)行鏡像備份,數(shù)據(jù)分析和數(shù)據(jù)恢復(fù)操作只能在鏡像文件上進(jìn)行,避免操作失誤破壞原始數(shù)據(jù),讓后續(xù)的數(shù)據(jù)恢復(fù)難度增加。