◎DELL R630 “PSU Redundancy Lost” & “Check PSU cables”

這是一篇檢討與記錄…

昨天下午約三點多學校無預警斷電,機房頓時一片黑,只剩下我的電腦與機櫃拜UPS之賜還能持續運作,由於UPS已經五年左右沒換過電池了,續航力要打問號,所以立刻進行手動關機,在短短幾分鐘內要關完七部主機與兩台儲存設備,再加上十個左右的vmdk虛擬機,還真是有點慌亂,所幸之前也是拜台電之賜讓我有實做演練數次的經驗,讓這回雖然慌亂但也是亂中有序,在UPS電力耗盡前順利全部關機完畢。

機房手動關機有順序性,要先讓作業系統 shutdown,再關host主機,最後才關storage,關完之後又再想想還可以做甚麼來降低損害?於是考量斷電最怕的事情之一是復電時的瞬間突波,所以我又拔了主機後面的電源線,機櫃延長線電源也關閉,讓主機與電源確實隔離,預計復電後等待五分鐘再進行回復工作…

斷電後約廿分鐘復電了,五分鐘過去後開始逐一接回主機電源並開機,開機順序要先開storage,接著是Host主機,最後才是OS,整個斷電與復電過程最關鍵的就是storage的開關順序,vmdk與data都在storage中,所以關機時要最後關,開機時要最先開!

但是開機後發現ping不到新買的server1 DELL R630,面板亮橘燈且出現錯誤訊息 “PSU Redundancy Lost” & “Check PSU cables”

DSC05329

到機器後面發現電源插左側power1時不過電,改插右側Power2時,綠色指示燈就亮了,但是雖然開機了卻出現一個問題,就是網路不通,且面板上的PSU錯誤訊息仍在

DSC05330

但是如果同時接上兩條電源線時,左側power1指示燈就亮了,所以表示power沒壞,猜測這是R630 power redundan的機制讓網路斷線來提醒管理者到機房查看,此時再ping server1網路就通了(不過這猜測被Alex推翻,DELL的PSU機制750w雙電源不是同時運作的,第二顆Power是扮演備援角色,備援的在第一顆故障時才會自動接手供電任務,所以有可能是我抽拔電源時導致模組接觸不良無法過電,於是,再度將機器關機,只接Power1…結果,竟然過電了,而且網路有通…囧)。

DSC05331

回到面板指示燈就跳回了正常的藍色畫面,虛驚一場

DSC05332

這次有驚無險的挑戰學到一個教訓,斷電不要拔server電源線,拔UPS電源或關閉延長線電源可能是防止復電突波較為理想的做法。

發表留言