【服務(wù)器數(shù)據(jù)恢復(fù)】HP EVA存儲多塊硬盤離線的數(shù)據(jù)恢復(fù)案例

服務(wù)器故障&檢測&分析:
HP EVA存儲設(shè)備中的RAID5磁盤有兩塊硬盤掉線,lun丟失。硬件工程師對故障服務(wù)器進行物理故障檢測,發(fā)現(xiàn)掉線硬盤能夠正常讀取,無物理故障,也沒有發(fā)現(xiàn)壞道。
故障服務(wù)器掉線硬盤沒有物理故障,所以掉線極有可能是硬盤讀寫不穩(wěn)定造成的。EVA控制會將讀寫不穩(wěn)定的硬盤默認為壞盤并踢出。raid5冗余允許最大掉線硬盤的數(shù)量是2,掉線的硬盤超過了2塊就會導(dǎo)致服務(wù)器崩潰。
通過分析故障服務(wù)器內(nèi)raid條目的存儲形式,發(fā)現(xiàn)每個硬盤的不同塊組成一個raid條目。通過分析后解析出來raid條目信息,發(fā)現(xiàn)每個LUN都有一份LUN_MAP。由于EVA將LUN_MAP分別存放在不同的磁盤中,用一個索引來指定其位置,因此在磁盤中找出這個指定LUN_MAP位置的索引就可以找到現(xiàn)存LUN的信息。

服務(wù)器數(shù)據(jù)恢復(fù)過程:
1、將故障存儲中所有硬盤連接到北亞企安數(shù)據(jù)恢復(fù)平臺上,以只讀方式將硬盤數(shù)據(jù)鏡像備份,后續(xù)的數(shù)據(jù)分析和數(shù)據(jù)恢復(fù)操作都基于鏡像文件進行,避免對原始數(shù)據(jù)造成二次破壞。
2、通過故障分析確定硬盤掉線的原因是讀寫不穩(wěn)定,被控制器踢出掉線。這些掉線的硬盤中有一部分數(shù)據(jù)是老舊數(shù)據(jù),LUN使用的是RAID5,只需要將一個LUN的RAID條目通過RAID5的校驗算法算出校驗值,再和原有的校驗值做比較就可以判斷這個條目中是否有掉線盤。

將一個LUN的所有LUN_MAP都校驗一遍就可以知道這個LUN中的哪些RAID條目中有掉線盤。在這些RAID條目中都存在的那個盤就一定就是掉線盤。排除掉線盤后根據(jù)LUN_MAP即可恢復(fù)所有LUN的數(shù)據(jù)。由北亞企安數(shù)據(jù)恢復(fù)工程師編寫相對應(yīng)程序來實現(xiàn)這個方案,根據(jù)編寫好的程序去實現(xiàn)不同的功能:
a、編寫程序掃描全部LUN_MAP,結(jié)合人工分析獲取到LUN_MAP。
b、編寫檢測RAID條目的程序檢測所有LUN中掉線的磁盤,結(jié)合人工分析排除掉線的磁盤。
c、編寫LUN數(shù)據(jù)恢復(fù)程序,結(jié)合LUN_MAP恢復(fù)所有LUN數(shù)據(jù)。
恢復(fù)出所有LUN的數(shù)據(jù)后由人工核對每個LUN,驗證是否和用戶方工程師描述的一致。
3、根據(jù)用戶方工程師描述,所有LUN的數(shù)據(jù)可以分成兩部份:1、Vmware的虛擬機;2、HP-UX上的裸設(shè)備,裸設(shè)備存放Oracle的dbf數(shù)據(jù)庫。由于通過恢復(fù)出來的LUN無法看到里面的文件,因此需要人工核對哪些LUN是存放Vmware的數(shù)據(jù),哪些LUN是HP-UX上的裸設(shè)備。核對完成后將不同的LUN掛載到不同的驗證環(huán)境中進行驗證。
4、將所有存放vmware虛擬機數(shù)據(jù)的LUN里面的虛擬機文件都生成出來,通過NFS共享的方式掛載到虛擬主機上,然后將虛擬機一個一個添加到清單。所有虛擬機加電開機后都能啟動系統(tǒng)。用戶方工程師親自對虛擬機里面的數(shù)據(jù)進行驗證沒有發(fā)現(xiàn)問題。本次數(shù)據(jù)恢復(fù)工作完成。

服務(wù)器數(shù)據(jù)安全Tips:
1、定期巡查服務(wù)器&存儲設(shè)備,發(fā)現(xiàn)報警及時處理。
2、操作要謹慎,避免誤操作導(dǎo)致設(shè)備數(shù)據(jù)丟失。
3、如果發(fā)現(xiàn)EVA控制器模塊不穩(wěn)定,應(yīng)當(dāng)及時更換。
4、本案例中的EVA存儲故障是由磁盤讀寫不穩(wěn)定導(dǎo)致的,如果EVA存儲中所有磁盤(掉線和沒有掉線的)是同一批次,這些沒有掉線的磁盤也應(yīng)該快到極限,如果有條件建議更換掉這批磁盤。
