【服務器數(shù)據(jù)恢復】磁盤壞道故障導致RAID5崩潰的數(shù)據(jù)恢復案例

服務器數(shù)據(jù)恢復環(huán)境:
某單位一臺某品牌DS系列服務器連接4個擴展柜;
50塊磁盤組建兩組RAID5,其中一組由27塊磁盤組建的RAID5存放的是Oracle數(shù)據(jù)庫文件;
上層一共劃分11個卷。

服務器故障:
磁盤故障導致存放Oracle數(shù)據(jù)庫文件的RAID5崩潰,服務器不可用。
服務器數(shù)據(jù)恢復過程:
硬件工程師先對故障服務器的27塊磁盤進行硬件故障檢測,發(fā)現(xiàn)其中的2塊磁盤存在壞道,SMART錯誤冗余級別已經(jīng)超過閾值。對另外的25塊無硬件故障的磁盤做全盤鏡像,對2塊有壞道的磁盤進行恢復并生成鏡像文件。
收集故障服務器的日志信息并進行分析,查明兩塊存在壞道的磁盤掉線先后順序,用后掉線的磁盤進行數(shù)據(jù)恢復。

經(jīng)過北亞數(shù)據(jù)恢復工程師團隊會診最終敲定兩套數(shù)據(jù)恢復方案:
方案一:把故障服務器所有硬盤都備份后通過該品牌自帶存儲管理軟件強制上線。
方案二:通過分析硬盤底層獲取raid相關信息,利用獲取到的信息重組RAID,提取數(shù)據(jù)并重新加載oracle數(shù)據(jù)庫,調(diào)試上層應用。
執(zhí)行第一套方案,先在模擬器上測試,測試完成后通過該品牌自帶的存儲管理軟件進行強制上線。強制上線后發(fā)現(xiàn)raid處于降級狀態(tài),這時設置好熱備盤上線并開始同步數(shù)據(jù),同步完之后發(fā)現(xiàn)上層的卷已經(jīng)可以直接使用,所有數(shù)據(jù)可見,上層應用可正常使用。
雖然上層的卷可以使用,數(shù)據(jù)也都可見,但是出于安全考慮,北亞數(shù)據(jù)恢復工程師將卷里的文件都拷貝出來移交給用戶,經(jīng)過用戶反復測試后確認恢復數(shù)據(jù)完整可用。

Tips:
1、服務器發(fā)生故障后,切忌對服務器進行操作;也不要隨意取出硬盤,以免弄亂盤序。
2、如果需要取出硬盤,標記好硬盤的順序之后再取出。
3、服務器陣列癱瘓后應該立即斷電,不要做同步或強制上線操作,防止數(shù)據(jù)進一步破壞。