HP LeftHand存儲(chǔ)raid磁盤出現(xiàn)故障的服務(wù)器數(shù)據(jù)恢復(fù)案例

HP-LeftHand存儲(chǔ)簡(jiǎn)介:
HP LeftHand存儲(chǔ)支持RAID5、RAID6、RAID10磁盤陣列,支持卷快照,卷動(dòng)態(tài)擴(kuò)容等。
服務(wù)端:

客戶端:

LeftHand存儲(chǔ)分為三個(gè)層級(jí):物理磁盤、邏輯磁盤、邏輯卷。多個(gè)物理磁盤組成一個(gè)邏輯的磁盤,也就是RAID磁盤陣列;將不同RAID磁盤陣列組成一個(gè)空間,將空間中不同的區(qū)域劃分為一個(gè)一個(gè)的卷。

卷由不同RAID陣列的N個(gè)不連續(xù)的片段組成,是用戶的可用空間,存放文件系統(tǒng)以及用戶的數(shù)據(jù),RAID前面一部分空間用來存儲(chǔ)記錄這些片段的MAP。RAID是LeftHand存儲(chǔ)能識(shí)別的最小單元,LeftHand存儲(chǔ)使用比較多的是RAID5或RAID6。物理磁盤中存放的數(shù)據(jù)是不連續(xù)的,如果組建的是RAID5或RAID6,那么物理磁盤中還存放有校驗(yàn)數(shù)據(jù)。
?
HP-LeftHand存儲(chǔ)故障:
某法院的一臺(tái)LeftHand存儲(chǔ)因raid磁盤故障導(dǎo)致存儲(chǔ)不可用,更換磁盤強(qiáng)制上線后存儲(chǔ)仍然不可用。
存儲(chǔ)結(jié)構(gòu):

HP-LeftHand存儲(chǔ)數(shù)據(jù)恢復(fù)過程:
1、由硬件工程師先對(duì)故障存儲(chǔ)中的所有硬盤做檢測(cè),所有磁盤均可正常讀取,沒有發(fā)現(xiàn)存在物理故障。
2、將所有磁盤以只讀方式做全盤鏡像,后續(xù)的數(shù)據(jù)分析和數(shù)據(jù)恢復(fù)操作都基于鏡像文件進(jìn)行,避免對(duì)原始磁盤數(shù)據(jù)造成二次破壞。
3、基于鏡像文件分析底層數(shù)據(jù)。故障存儲(chǔ)中有2組RAID5:第一組是HP雙循環(huán)RAID5,該RAID正常;第二組也是RAID5,出現(xiàn)問題的就是第二次RAID5。根據(jù)RAID5的特點(diǎn),第二組RAID中掉盤數(shù)量至少為2塊。
4、北亞企安數(shù)據(jù)恢復(fù)工程師通過窮舉+校驗(yàn)的方法分析找出第二組RAID中早掉線的那塊磁盤并踢出,根據(jù)分析獲取到的RAID相關(guān)信息重組RAID。
注:窮舉法:假設(shè)其中一塊磁盤是早掉線的,踢掉此盤,重組RAID然后生成全部數(shù)據(jù),將數(shù)據(jù)掛載到環(huán)境中看數(shù)據(jù)是否正確。如果數(shù)據(jù)不正確,那么再假設(shè)另一塊盤是早掉線的,以此循環(huán)。雖然這種方案可行,但是每次重組RAID生成數(shù)據(jù)耗時(shí)較長(zhǎng)且準(zhǔn)確率低。
窮舉+校驗(yàn)法:和窮舉法一樣,假設(shè)某個(gè)磁盤是早掉線的,踢掉磁盤后重組RAID,但不生成全部的數(shù)據(jù),而是只生成前面幾個(gè)G的數(shù)據(jù),因?yàn)镠P-LeftHand存儲(chǔ)的數(shù)據(jù)的索引表位圖位于RAID的前幾個(gè)G的數(shù)據(jù)范圍。只要通過查看這個(gè)索引表位圖的信息是否正確就可以判斷此RAID是否正確。如果正確就生成此RAID的全部數(shù)據(jù)。
5、將生成的數(shù)據(jù)和第一組完好的RAID一同掛載到故障存儲(chǔ)上,啟動(dòng)存儲(chǔ),上層卷可用,檢查最新文件沒有發(fā)現(xiàn)問題。交由用戶方檢測(cè),用戶方工程師經(jīng)過反復(fù)認(rèn)證檢測(cè),確認(rèn)恢復(fù)數(shù)據(jù)完整有效。本次數(shù)據(jù)恢復(fù)工作完成。