【服務(wù)器數(shù)據(jù)恢復(fù)】多次異常斷電后raid信息丟失的的數(shù)據(jù)恢復(fù)案例

服務(wù)器數(shù)據(jù)恢復(fù)環(huán)境&故障:
某公司一臺(tái)存儲(chǔ)設(shè)備存放公司內(nèi)部重要文件。存儲(chǔ)設(shè)備上有一組由6塊硬盤組成的raid5磁盤陣列。存儲(chǔ)設(shè)備在正常運(yùn)行過程中突然崩潰,管理員強(qiáng)制重啟后無法找到存儲(chǔ)設(shè)備,多次重啟后還是找不到存儲(chǔ)設(shè)備。

服務(wù)器故障分析:
經(jīng)過數(shù)據(jù)恢復(fù)工程師和硬件工程師團(tuán)隊(duì)的檢測(cè)和分析,初步判斷這臺(tái)存儲(chǔ)設(shè)備故障原因應(yīng)該是raid模塊損壞。raid模塊損壞故障包括raid信息丟失和raid模塊硬件損壞。基于以往大量的案例經(jīng)驗(yàn),北亞企安數(shù)據(jù)恢復(fù)工程師團(tuán)隊(duì)判斷該存儲(chǔ)設(shè)備故障極有可能就是設(shè)備多次異常斷電導(dǎo)致的。經(jīng)過與用戶方管理員的溝通得知這臺(tái)存儲(chǔ)在出現(xiàn)故障之前確實(shí)遭遇過數(shù)次非正常的斷電關(guān)機(jī),但每次斷電后重啟一切正常,因此未引起管理員的注意。即使存儲(chǔ)設(shè)備崩潰后也沒有意識(shí)到這次故障與以前設(shè)備多次異常斷電有關(guān)系。

服務(wù)器數(shù)據(jù)恢復(fù)過程:
1、由硬件工程師對(duì)故障存儲(chǔ)中所有硬盤做物理故障檢測(cè),經(jīng)過檢測(cè)沒有發(fā)現(xiàn)所有硬盤都可以正常讀取,不存在物理故障。
2、將所有硬盤以只讀方式做完整鏡像備份,后續(xù)的數(shù)據(jù)分析和數(shù)據(jù)恢復(fù)操作都基于鏡像文件進(jìn)行,避免在數(shù)據(jù)恢復(fù)過程中對(duì)原始數(shù)據(jù)造成二次破壞。
3、基于鏡像文件分析故障存儲(chǔ)中的raid5磁盤陣列的raid結(jié)構(gòu),獲取所有硬盤在陣列中的盤序、校驗(yàn)方式和數(shù)據(jù)塊大小等raid相關(guān)信息。利用這些raid相關(guān)重新構(gòu)建一組raid5陣列。
4、對(duì)重構(gòu)的raid5陣列進(jìn)行邏輯校驗(yàn),邏輯校驗(yàn)成功后讓用戶方工程師親自進(jìn)行數(shù)據(jù)驗(yàn)證。
5、經(jīng)過用戶方工程師的反復(fù)驗(yàn)證,沒有發(fā)現(xiàn)任何問題,確認(rèn)恢復(fù)出來的數(shù)據(jù)完整可用,用戶方對(duì)數(shù)據(jù)恢復(fù)結(jié)果十分滿意,本次數(shù)據(jù)恢復(fù)任務(wù)完成。

服務(wù)器數(shù)據(jù)安全Tips:
1、服務(wù)器和存儲(chǔ)設(shè)備所在的機(jī)房應(yīng)該盡量保障電源供應(yīng)的穩(wěn)定,如果有設(shè)備確實(shí)需要關(guān)機(jī),一定要使用正確的關(guān)機(jī)方法關(guān)機(jī),而不是直接斷電。
2、使用年限比較長(zhǎng)的一些老設(shè)備要經(jīng)常檢查,尤其是對(duì)“受過傷害”但依舊在運(yùn)行的設(shè)備格外留意,隨時(shí)注意其工作狀態(tài),發(fā)現(xiàn)問題及時(shí)處理。例如本案例中的存儲(chǔ)設(shè)備,多次異常斷電后并沒有馬上出現(xiàn)故障而是運(yùn)行了一段時(shí)間后才突然崩潰。
3、做好數(shù)據(jù)備份,有了備份文件,就算是設(shè)備崩潰了也可以盡量減少損失,降低對(duì)正常業(yè)務(wù)的影響。