【案例分享】IBM P770故障處理記錄

故障描述
某日,客戶報修IBM P770(9117-MMB)小機宕機。我們前往現(xiàn)場檢查,該小型機由4個CEC柜和一個IO擴展柜組成,建有4個Lpar。查看HMC及ASMI告警信息,報錯部位涉及FSP卡,CPU板,IO板,中板,內(nèi)存等。





故障分析

經(jīng)過分析告警信息,現(xiàn)場檢查設(shè)備,加電啟動測試等一系列操作,我們發(fā)現(xiàn)擴展柜二DBJM790的FSP卡加電指示燈不亮,設(shè)備無法啟動,判斷出該FSP卡已壞,對應(yīng)位置U78C0.001.DBJM790-P1-C1。對于其他報錯信息,分析排除了CPU和內(nèi)存后,我們初步判斷,設(shè)備宕機與U78C0.001.DBJM782-P2位置IO板故障有關(guān),報錯代碼1100262D。
故障處理
我們決定由更換故障的FSP卡開始,F(xiàn)SP卡正常了,才能繼續(xù)檢查和處理其他故障。
處理過程如下:
1.?備份分區(qū)數(shù)據(jù),選中主機---->Configuration---->Manage partition Data ---->Backup.

2.??查看HMC上分區(qū)備份數(shù)據(jù)
3.?在HMC控制臺打開Restricted shell terminal
4.?使用命令查看分區(qū)數(shù)據(jù):>ls -l /var/hsc/profiles/<serial number of system>
5.?登錄ASMI,記錄設(shè)備主機名,網(wǎng)絡(luò)設(shè)置,微碼信息,時間,啟動選項。
6.?設(shè)備下電,更換CEC柜二的FSP卡。
7.?插好線纜,不連接HMC,設(shè)備加電測試。
8.?發(fā)現(xiàn)主柜FSP不亮,再次更換主柜FSP卡。
9.?不連接HMC網(wǎng)線,加電啟動。
10.?筆記本直連HMC管理口,F(xiàn)SP卡恢復(fù)出廠配置。ASMI---->system service asid---->factory configuration---->reset service processor setting---->continue.等待恢復(fù)出廠設(shè)置完成,F(xiàn)SP卡會自動重啟,大概10到20分鐘。
11.?修改時間,主機名,HMC管理口IP地址。
12.?連接HMC管理機,等待刷新連接。
13.?按提示輸入HMC和ASMI密碼。
14.?連接成功后主機狀態(tài)為recovery,選中主機選擇任務(wù)欄第一項Recovery partition,選擇Restore profile data from HMC backup data?從本HMC恢復(fù)分區(qū)數(shù)據(jù)。等待恢復(fù)完成,設(shè)備會自動power on,并自檢。
15.??自檢過程還是出現(xiàn)了紅色叉叉,無法啟動,查看報錯信息,還是主柜IO板報錯。


16.??再次停機下電,更換主柜U78C0.001.DBJM782-P2?位置IO板。

17.?重新啟動加電啟動設(shè)備,F(xiàn)SP能正常加電。
18.?待HMC識別正常后,重新做分區(qū)Recovery?操作,成功恢復(fù),設(shè)備啟動到standby。19.?找到相應(yīng)分區(qū)概要文件啟動分區(qū)

經(jīng)驗總結(jié)
1、IBM P770、780小機FSP卡的故障經(jīng)常會導(dǎo)致其他多個部件一并告警,最好先去現(xiàn)場確認,在通電狀態(tài)下,所有FSP卡電源指示燈是否正常(綠燈常亮),如有熄滅的,則是FSP卡壞了,建議先更換FSP卡,再排查其他部件。
2、P770、780小機正常情況加電時,F(xiàn)SP卡會立馬點亮,但是這個型號的機器,加電時FSP卡容易出故障,會出現(xiàn)邊修邊壞的情況,點不亮也只能更換FSP卡。所以需要按條件多準備幾塊FSP卡,而且下電前先備份好分區(qū)信息。(HMC里選中主機-->Configuration-->Manage partition Data -->Backup)
3、更換完FSP卡后,先不要連HMC,需要先恢復(fù)出廠設(shè)置,防止連接HMC后把HMC里設(shè)備的分區(qū)信息沖掉,分區(qū)無法恢復(fù)。更換完FSP卡,確認都能點亮后,再power on自檢,檢查其他部件是否有問題,發(fā)現(xiàn)問題再進行處理。