【NAS】raidz2 掉盤(pán),陣列降級(jí)怎么辦?
truenas scale直接警報(bào)

池狀態(tài)


TMD,剛買(mǎi)的希捷銀河7e8,一個(gè)是不能休眠,另一個(gè)就是直接擱這擺爛報(bào)警。目前原因不是很清楚,如果不是我家貓作祟,就應(yīng)該是硬盤(pán)的問(wèn)題,或者線材的問(wèn)題,后續(xù)有待觀察
摘下對(duì)應(yīng)盤(pán)做單獨(dú)的檢測(cè),經(jīng)典三黃警告

可能是店家混著賣(mài),一個(gè)好的配一個(gè)壞的。
打算再給希捷一個(gè)機(jī)會(huì),不行就直接西數(shù)了,噪音大就大吧,豁出去了
truenas組raidz是根據(jù)盤(pán)的健康度SMART信息來(lái)的,如果SMART黃色報(bào)警,例如上圖三個(gè)黃色報(bào)警,它就直接降級(jí)提示你不能用了。但其實(shí)要是繼續(xù)用的話,也是可以的。所以,經(jīng)過(guò)這個(gè)事件我們可以看到,truenas的raidz可以提前預(yù)警,以保證硬盤(pán)都是一個(gè)很健康的狀態(tài),亞健康的那些盤(pán)都會(huì)被提前清除
---
今天盤(pán)到了,準(zhǔn)備替換原來(lái)的盤(pán)。
原來(lái)的壞盤(pán)不要?jiǎng)?,插上新盤(pán),然后開(kāi)始操作,這里直接圖形界面操作,點(diǎn)擊要更換的盤(pán),然后直接選擇替換就行了。我這里壞掉的是sdc盤(pán),新加入的是sdf盤(pán)

然后會(huì)提示替換成功

成功之后回到主界面,會(huì)發(fā)現(xiàn)已經(jīng)自動(dòng)開(kāi)始重新建立存儲(chǔ)池了

重建過(guò)程可以看到很耗CPU,能注意到似乎是單線程在操作,多核多線程對(duì)于池的重建似乎沒(méi)有幫助?

實(shí)際重建過(guò)程3小時(shí)重建1.2T,全部重建4T的數(shù)據(jù)大約需要9小時(shí)左右。重建不需要過(guò)多內(nèi)存,消耗的是CPU,比較吃CPU的單核性能,對(duì)于e3、e5這樣單核主頻較低的CPU,速度稍慢,所以CPU直通host模式可能更好一些
經(jīng)過(guò)7個(gè)小時(shí)候查看,基本已經(jīng)快好了,這個(gè)過(guò)程內(nèi)存幾乎沒(méi)怎么用,也就是說(shuō)重建raidz是不怎么消耗CPU的

完成后提示

右上角的同步轉(zhuǎn)圈的圖標(biāo)也沒(méi)了

在重建的過(guò)程中,可以發(fā)現(xiàn)新加入的磁盤(pán)溫度最高,達(dá)到了40°,如圖最后一個(gè)盤(pán)

重建過(guò)程中,在PVE外面監(jiān)控可以得知,磁盤(pán)寫(xiě)入大概在120M附近

整個(gè)重建完成用了7小時(shí),然后一切恢復(fù)正常

以防萬(wàn)一,最后再做一次long類型的SMART檢測(cè)和scrub,保證硬盤(pán)的健康度和數(shù)據(jù)的安全,看看是否會(huì)誘發(fā)新的問(wèn)題
Scrub的過(guò)程比較消耗CPU和磁盤(pán)
CPU利用率一直是45%左右,而磁盤(pán)IO,主要是讀取數(shù)據(jù)一直維持在接近700M的速度

相對(duì)而言,SMART檢測(cè)基本沒(méi)有太大消耗,不知道是什么原理
只是每次進(jìn)行SMART檢測(cè)就會(huì)提示預(yù)計(jì)完成的時(shí)間,8T硬盤(pán)大約是1小時(shí)多
個(gè)人建議每天都做short類型的SMART,每周做一次long類型的SMART