【服務器數(shù)據(jù)恢復】raid故障導致分區(qū)無法識別的數(shù)據(jù)恢復案例

服務器數(shù)據(jù)恢復環(huán)境:
HP ProLiant DL某系列服務器,三塊SAS硬盤組建raid陣列。
上層系統(tǒng)部署有數(shù)據(jù)庫,數(shù)據(jù)庫存放在D分區(qū),備份存放在E分區(qū)。
服務器故障:
磁盤故障導致RAID癱瘓,其中一塊硬盤狀態(tài)燈顯示紅色。存放數(shù)據(jù)庫文件的D分區(qū)無法識別;E分區(qū)可識別,但是拷貝備份文件報錯。管理員重啟服務器,離線硬盤上線進行數(shù)據(jù)同步。同步還沒有完成時,管理員發(fā)現(xiàn)異常,將服務器強制關機,之后沒有對服務器做任何操作。
服務器數(shù)據(jù)恢復過程:
1、將故障服務器中所有磁盤編號取出,連接到北亞企安備份服務器平臺上以只讀方式進行全盤備份。后續(xù)的數(shù)據(jù)分析和數(shù)據(jù)恢復操作都基于鏡像文件進行,避免對原始數(shù)據(jù)造成二次破壞。在備份過程中發(fā)現(xiàn)陣列中的三塊磁盤可以正常讀取,均沒有發(fā)現(xiàn)壞道。

2、基于鏡像文件分析底層數(shù)據(jù)獲取raid相關信息,根據(jù)獲取到的raid信息重組raid并進行異或校驗,但是只有部分校驗通過。因為離線硬盤上線之后的同步操作會破壞數(shù)據(jù),只有部分校驗通過意味著數(shù)據(jù)有損壞。

3、嘗試多種硬盤離線狀態(tài)下去提取數(shù)據(jù),發(fā)現(xiàn)每塊盤離線所提取的數(shù)據(jù)都是一致的。

4、嘗試分析&修復E分區(qū)中的dat文件,發(fā)現(xiàn)兩個備份文件都有損壞。

5、分析&聚合dat碎片,驗證dat數(shù)據(jù)的完整性,底層結構顯示有損壞。

6、分析掃描D分區(qū)的數(shù)據(jù)文件,由于離線硬盤上線之后的同步操作,數(shù)據(jù)文件目錄已經(jīng)找不到了。

7、掃描D分區(qū)的自由空間數(shù)據(jù)頁,在掃描的結果中發(fā)現(xiàn)較連續(xù)的數(shù)據(jù)片段,碎片可用。北亞企安數(shù)據(jù)恢復工程師分析&聚合文件碎片,驗證數(shù)據(jù)文件碎片的完整性和有效性。
8、北亞企安數(shù)據(jù)恢復工程師通過整合拼接D分區(qū)碎片和E分區(qū)備份文件修復&解析出數(shù)據(jù),提取數(shù)據(jù)記錄到新建的數(shù)據(jù)庫中。
9、將上層應用連接數(shù)據(jù)庫,驗證數(shù)據(jù)的可用性。經(jīng)過驗證,數(shù)據(jù)庫文件可以正常加載,上層應用中的用戶賬號正常,可以進行正常的數(shù)據(jù)查詢。
10、由用戶方工程師親自驗證數(shù)據(jù),確定恢復出來的數(shù)據(jù)完整可用。將數(shù)據(jù)遷移到用戶方準備好的環(huán)境中。本次數(shù)據(jù)恢復工作完成。