【服務器數(shù)據(jù)恢復】AIX下raid5中2塊磁盤先后離線的數(shù)據(jù)恢復案例

服務器數(shù)據(jù)恢復環(huán)境:
IBM P740小型機+AIX操作系統(tǒng)+Sybase數(shù)據(jù)庫+V7000存儲。V7000存儲配置了12塊SAS機械硬盤(其中一塊為熱備盤)組建一組raid5磁盤陣列。存儲設備一共創(chuàng)建了2組Mdisk,加到一個pool中。
服務器故障:
IBM V7000存儲中的磁盤發(fā)生故障,工作人員更換磁盤后并進行數(shù)據(jù)同步,同步?jīng)]有完成時候存儲中的另塊磁盤出現(xiàn)故障,導致邏輯盤無法掛接在小型機上,業(yè)務中斷。通過存儲設備的管理界面看到有2塊磁盤顯示故障脫機,其中10號位的故障盤為熱備盤,3號位的故障硬盤情況如下圖:


主要數(shù)據(jù)pool現(xiàn)在無法加載,共三個通用卷均無法掛載,如下圖:

服務器數(shù)據(jù)恢復過程:
將故障存儲中所有磁盤編號取出,將沒有問題的10塊磁盤以只讀方式做全盤鏡像,發(fā)生故障的2塊磁盤使用專業(yè)工具處理后做鏡像。后續(xù)所有的數(shù)據(jù)分析和數(shù)據(jù)恢復操作都基于鏡像盤進行, 避免對原始磁盤數(shù)據(jù)造成影響。
方案1、對存儲進行強制上線操作。
a、分析故障存儲中故障硬盤的離線順序。
raid5最大允許一塊成員盤離線,該存儲設備已經(jīng)失效,各組Mdisk中只有一塊硬盤離線。提取故障存儲的日志,通過分析日志可以得到各故障硬盤的離線順序。
b、修復后離線的故障硬盤。
c、將修復的硬盤插回存儲中進行強制上線操作。
方案2、解析存儲結(jié)構(gòu)。
a、根據(jù)用戶方給出的配置信息將硬盤按照Mdisk組分類。
b、通過分析每一組Mdisk中的所有硬盤獲取到raid相關(guān)信息。
c、虛擬重組Mdisk。??
d、通過分析重組出來的Mdisk獲取到pool的相關(guān)信息。
e、解析pool在Mdisk上的分布情況,分析pool中的條帶大小。
f、解析LUN位圖,分析各LUN在pool中的分布情況。
g、北亞企安數(shù)據(jù)恢復工程師編寫程序提取LUN。
服務器數(shù)據(jù)驗證:
隨機抽樣檢測生成出的數(shù)據(jù),沒有發(fā)現(xiàn)問題。在用戶方準備好的存儲設備上創(chuàng)建與原環(huán)境一樣大小數(shù)量的LUN,將提取出來的數(shù)據(jù)LUN的鏡像文件復制到存儲上創(chuàng)建的LUN中。數(shù)據(jù)移交后,用戶方工程師重新配置存儲環(huán)境,經(jīng)過檢測一切正常。本次數(shù)據(jù)恢復工作完成。