散文網(wǎng) » 科技 »學(xué)習(xí) » 【服務(wù)器數(shù)據(jù)恢復(fù)】HP EVA存儲多塊硬盤離線的數(shù)據(jù)恢復(fù)案例

【服務(wù)器數(shù)據(jù)恢復(fù)】HP EVA存儲多塊硬盤離線的數(shù)據(jù)恢復(fù)案例

2023-02-28 11:54 作者:北亞數(shù)據(jù)恢復(fù) 0人讀過 | 我要投稿

服務(wù)器故障&檢測&分析：

HP EVA存儲設(shè)備中的RAID5磁盤有兩塊硬盤掉線，lun丟失。硬件工程師對故障服務(wù)器進行物理故障檢測，發(fā)現(xiàn)掉線硬盤能夠正常讀取，無物理故障，也沒有發(fā)現(xiàn)壞道。

故障服務(wù)器掉線硬盤沒有物理故障，所以掉線極有可能是硬盤讀寫不穩(wěn)定造成的。EVA控制會將讀寫不穩(wěn)定的硬盤默認為壞盤并踢出。raid5冗余允許最大掉線硬盤的數(shù)量是2，掉線的硬盤超過了2塊就會導(dǎo)致服務(wù)器崩潰。

通過分析故障服務(wù)器內(nèi)raid條目的存儲形式，發(fā)現(xiàn)每個硬盤的不同塊組成一個raid條目。通過分析后解析出來raid條目信息，發(fā)現(xiàn)每個LUN都有一份LUN_MAP。由于EVA將LUN_MAP分別存放在不同的磁盤中，用一個索引來指定其位置，因此在磁盤中找出這個指定LUN_MAP位置的索引就可以找到現(xiàn)存LUN的信息。

北亞企安數(shù)據(jù)恢復(fù)——HP EVA存儲數(shù)據(jù)恢復(fù)

服務(wù)器數(shù)據(jù)恢復(fù)過程：

1、將故障存儲中所有硬盤連接到北亞企安數(shù)據(jù)恢復(fù)平臺上，以只讀方式將硬盤數(shù)據(jù)鏡像備份，后續(xù)的數(shù)據(jù)分析和數(shù)據(jù)恢復(fù)操作都基于鏡像文件進行，避免對原始數(shù)據(jù)造成二次破壞。

2、通過故障分析確定硬盤掉線的原因是讀寫不穩(wěn)定，被控制器踢出掉線。這些掉線的硬盤中有一部分數(shù)據(jù)是老舊數(shù)據(jù)，LUN使用的是RAID5，只需要將一個LUN的RAID條目通過RAID5的校驗算法算出校驗值，再和原有的校驗值做比較就可以判斷這個條目中是否有掉線盤。

將一個LUN的所有LUN_MAP都校驗一遍就可以知道這個LUN中的哪些RAID條目中有掉線盤。在這些RAID條目中都存在的那個盤就一定就是掉線盤。排除掉線盤后根據(jù)LUN_MAP即可恢復(fù)所有LUN的數(shù)據(jù)。由北亞企安數(shù)據(jù)恢復(fù)工程師編寫相對應(yīng)程序來實現(xiàn)這個方案，根據(jù)編寫好的程序去實現(xiàn)不同的功能：

a、編寫程序掃描全部LUN_MAP，結(jié)合人工分析獲取到LUN_MAP。

b、編寫檢測RAID條目的程序檢測所有LUN中掉線的磁盤，結(jié)合人工分析排除掉線的磁盤。

c、編寫LUN數(shù)據(jù)恢復(fù)程序，結(jié)合LUN_MAP恢復(fù)所有LUN數(shù)據(jù)。

恢復(fù)出所有LUN的數(shù)據(jù)后由人工核對每個LUN，驗證是否和用戶方工程師描述的一致。

3、根據(jù)用戶方工程師描述，所有LUN的數(shù)據(jù)可以分成兩部份：1、Vmware的虛擬機；2、HP-UX上的裸設(shè)備，裸設(shè)備存放Oracle的dbf數(shù)據(jù)庫。由于通過恢復(fù)出來的LUN無法看到里面的文件，因此需要人工核對哪些LUN是存放Vmware的數(shù)據(jù)，哪些LUN是HP-UX上的裸設(shè)備。核對完成后將不同的LUN掛載到不同的驗證環(huán)境中進行驗證。

4、將所有存放vmware虛擬機數(shù)據(jù)的LUN里面的虛擬機文件都生成出來，通過NFS共享的方式掛載到虛擬主機上，然后將虛擬機一個一個添加到清單。所有虛擬機加電開機后都能啟動系統(tǒng)。用戶方工程師親自對虛擬機里面的數(shù)據(jù)進行驗證沒有發(fā)現(xiàn)問題。本次數(shù)據(jù)恢復(fù)工作完成。