【服務(wù)器數(shù)據(jù)恢復(fù)】EMC存儲raid5磁盤數(shù)據(jù)恢復(fù)案例

服務(wù)器數(shù)據(jù)恢復(fù)環(huán)境:
EMC某型號存儲;
8塊硬盤組成raid5磁盤陣列。

服務(wù)器故障:
raid5磁盤陣列中2塊硬盤離線,服務(wù)器崩潰,上層應(yīng)用不可用。
服務(wù)器數(shù)據(jù)恢復(fù)過程:
1、數(shù)據(jù)恢復(fù)工程師將故障存儲設(shè)備內(nèi)的所有硬盤鏡像備份,在鏡像備份過程中沒有發(fā)現(xiàn)離線硬盤有物理故障,直接鏡像故障存儲中所有硬盤。備份完成后把硬盤按照原樣裝回故障存儲設(shè)備中,后續(xù)的數(shù)據(jù)恢復(fù)操作都在鏡像文件進行,避免對原始數(shù)據(jù)造成二次破壞。

2、數(shù)據(jù)恢復(fù)工程師開始基于鏡像文件對底層數(shù)據(jù)進行分析,計算出故障存儲設(shè)備中原raid5的硬盤盤序、raid條帶大小等raid信息,通過這些信息虛擬重組raid。
3、由于故障存儲中的LUN是基于RAID組的,把raid虛擬重組出來后,北亞數(shù)據(jù)恢復(fù)工程師開始分析LUN在RAID組中的分配信息以及LUN分配的數(shù)據(jù)塊MAP。
4、根據(jù)獲取到的關(guān)于LUN的信息,數(shù)據(jù)恢復(fù)工程師使用北亞自研的raid恢復(fù)程序解釋LUN的數(shù)據(jù)MAP,導(dǎo)出LUN的所有數(shù)據(jù)。
5、使用北亞自研的文件系統(tǒng)解釋程序?qū)?dǎo)出的lun進行文件系統(tǒng)解釋,在文件系統(tǒng)解釋過程中出現(xiàn)報錯,數(shù)據(jù)恢復(fù)工程師分析報錯內(nèi)容并調(diào)試文件系統(tǒng)解釋程序,經(jīng)過分析與調(diào)試確認(rèn)是由于故障存儲中某些元文件損壞導(dǎo)致解釋zfs文件系統(tǒng)程序報錯。
6、數(shù)據(jù)恢復(fù)工程師手動修復(fù)損壞的文件,直至zfs文件系統(tǒng)可以被正常解析。
7、多次修復(fù)和解析zfs文件系統(tǒng)后對最新數(shù)據(jù)進行驗證,驗證無誤后聯(lián)系用戶親自對恢復(fù)出來的數(shù)據(jù)進行驗證,確認(rèn)數(shù)據(jù)完整可用。

Tips:
1、服務(wù)器發(fā)生故障后,切忌對服務(wù)器進行操作;也不要隨意取出硬盤,以免弄亂盤序。
2、如果需要取出硬盤,標(biāo)記好硬盤的順序之后再取出。
3、服務(wù)器陣列癱瘓后應(yīng)該立即斷電,不要做同步或強制上線操作,防止數(shù)據(jù)進一步破壞。