【案例分享】IBM P750硬盤(pán)讀寫(xiě)故障導(dǎo)致I/O延遲

故障處理
某銀行一臺(tái)IBM p750發(fā)生I/O性能問(wèn)題。進(jìn)入系統(tǒng)查看當(dāng)時(shí) iostat 狀態(tài),發(fā)現(xiàn)basevg中本地磁盤(pán)hdisk1的使用率達(dá)到了 100%,表示I/O已經(jīng)開(kāi)始等待,系統(tǒng)性能出現(xiàn)了問(wèn)題。

故障分析
查看系統(tǒng) errpt 日志,在故障時(shí)段 errpt日志中并沒(méi)有hdisk1相關(guān)告警,隨后我們使用壓力測(cè)試腳本對(duì)磁盤(pán)hdisk1執(zhí)行讀寫(xiě)測(cè)試,errpt日志報(bào)出本地硬盤(pán)hdisk1 TH臨時(shí)硬件告警,描述為 DISK OPERATION ERROR,然后我們對(duì)日志進(jìn)行decode后,確認(rèn)此錯(cuò)誤是本地硬盤(pán)hdisk1讀寫(xiě)超時(shí)所致。

檢查sissas0鏈路磁盤(pán)狀態(tài)均為 Operational。

最終判定此次問(wèn)題是由于本地磁盤(pán) hdisk1 硬件故障所致,需要在線(xiàn)更換此硬盤(pán)。
故障處理
更換完硬盤(pán),系統(tǒng)正常識(shí)別硬件,加入到basevg并和hdisk3做好鏡像,更換流程正常操作完畢。但凌晨時(shí),errpt 中再次出現(xiàn)hdisk1 臨時(shí)硬件告警,描述為DISK OPERATION ERROR,再對(duì)detail data 進(jìn)行decode,此次結(jié)果和上次不同,描述為加電或者自檢失敗。

將此case升級(jí)到公司后線(xiàn)支持之后,在首次故障發(fā)生時(shí),hdisk1硬盤(pán)雖然有讀寫(xiě)超時(shí),但是沒(méi)有被系統(tǒng)及時(shí)感知隔離;在第二次更換硬盤(pán)后則出現(xiàn)了加電或者自檢失敗的告警,確認(rèn)要更換硬盤(pán)背板,并將hdisk1再次更換。
經(jīng)驗(yàn)總結(jié)
在以往的硬盤(pán)更換事件中,當(dāng)出現(xiàn)硬盤(pán)錯(cuò)誤告警時(shí),無(wú)論是PH永久性硬件錯(cuò)誤,還是TH臨時(shí)性硬件錯(cuò)誤,磁盤(pán)均有DISK OPERATION ERROR,或出現(xiàn)此磁盤(pán)上邏輯卷讀寫(xiě)錯(cuò)誤,均被AIX系統(tǒng)感知,沒(méi)有造成I/O性能問(wèn)題,正常更換硬盤(pán)后就會(huì)恢復(fù)正常。此次本地硬盤(pán)故障造成I/O性能問(wèn)題的事件還是首次發(fā)生,因snap檢查的所有sissas0鏈路均正常,所以第一次我們?nèi)哉J(rèn)為只是本地硬盤(pán)hdisk1故障造成的,更換策略也只是更換了此硬盤(pán)。而第二次產(chǎn)生報(bào)錯(cuò),硬盤(pán)報(bào)錯(cuò)decode為加電和自檢失敗,和第一次的問(wèn)題點(diǎn)不同,我們才定位到硬盤(pán)背板。雖然這種情形發(fā)生概率極低,但以后如果遇到硬盤(pán)讀寫(xiě)超時(shí)產(chǎn)生I/O性能問(wèn)題,我們決定將此硬盤(pán)和硬盤(pán)背板一并更換,保證一次性維修。