◎重新檢視不斷電系統組態與pcns更新(APC SMART UPS-3000)

昨天課上到一半,前主管小張來訊告知許多學校發生停電,提醒我留意一下設備狀況,學校斷電其實即使我人不在學校,機房也不會有太大問題,斷電有UPS幫忙關機,復電雖然不能自動化開機,但也可以透過iDrac處理,這是使用DELL伺服器的優勢,只要在復電後遠端連入iDrac就能將實體主機打開,虛擬機只要有排程的也會自動啟動。學校的UPS是兩套APC SMART-UPS 3000,十多年前機房設備陸續增加後購置了兩台,當時一台35000左右,兩台含施工7萬多解決。

由於前年底購置了伺服器排程與差異備份的方案,去年底也擴充了大容量儲存設備手動做完虛擬機的離線備份,所以校內伺服器部分其實已具備線上差異備份(異機)以及離線備份這兩種方案,當災難發生時只要硬體沒有損壞,多半都能在短時間內進行復原。

除了線上與離線兩種備份方案確保安全之外,UPS仍是很重要的一項保護措施,UPS的用途不是像發電機為了讓我們在沒電時有電可用,而是為了在市電中斷時,讓系統有充裕時間正常關機來避免災難發生。學校目前主要是兩台APC在線互動式UPS,此類型UPS平常是讓設備吃市電,當電壓異常、驟降、瞬斷時,切換電力來源改由UPS電池提供緊急用電,因此,這次要檢視機房各系統在市電異常時的UPS配置,也有些因近期新設或升級更新後沒上到UPS Agent的也要一併處理,另外,近期將十多年前建置的服務陸續從Server2008或Win7更新到了Server2016、2019或Win10的,也不知道當初購置UPS時附的PCNS Agent還能不能使用,所以也得找找新版的PCNS Agent…

幸好APC的PowerChute Network Shutdown Agent不難找,支援的作業系統類別也有清楚標示,目前提供的Agent版本為v4.4.1但從官網得知還有區分virtualization用的,for virtualization 的版本不是用來關閉虛擬機的vm,而是關閉ESXi或其他虛擬化的實體主機用,記得當初為了關閉ESXi實體機還曾經買過vma授權,後來也藉由第三方工具進行ESXi實體機關閉,但現在不必花這錢就都能做到了。不過作業系統看似還不支援到2019、2022與Windows 11,但實作後在Win11、Windows Server2019上安裝是沒問題的。

這次測試使用的PCNS v4.4.1工具放這裡,安裝流程摘重點如后…

PCNS一隻程式可以同時處理實體主機與虛擬機器,如果安裝實體機時就要選擇第一項Do not enable virtualization Support的選項,但如果是安裝在vm上的就要勾選 Enable VMware Support,接著安裝流程就會要求輸入ESXi主機的連線設定(IP、帳密),首先我測試辦公機的W11電腦,所以先勾選第一個Do not enable…其餘依照慣性點完下一步即可開始安裝。

安裝過程會提示需要在防火牆放行幾個通訊埠,記得以前是會放外對內走3052跟6547兩個通訊埠,所以這邊問你是否願意讓它自動執行,點選是之後就會安裝完成。

進入防火牆上看輸入規則會發現跟以往一樣,就是放3052(TCP/UDP)以及6547(TCP)這三條規則。

安裝完成會自動開啟瀏覽器https://hostname:6547,日後直接輸入https://yourIP:6547即可線上調整UPS設定內容,初次須先進行幾項簡易設定。

選擇主機連線方式走v4或v6,如果IPv6沒有啟用的情況下,下圖就不會出現v6的選項

*單機模式-適用伺服器外的設備

選擇UPS的設定,其實這邊是要依據現場設備連接的架構來選擇,例如我辦公電腦的電力來源是透過UPS牽出來給當時幾台落地伺服器吃的電,辦公電腦也只有單power,所以選擇Single模式即可;但若是機櫃內的機架式伺服器都有具備雙power且有兩台同型號UPS的情況下,就可選擇Redundant冗餘模式。

Single的架構就是環境只有一台UPS或主機只有單一電源時的選擇,像辦公電腦一般就是這種情形。

Redundant冗餘架構就像機房設備櫃有兩套UPS且伺服器主機有雙power可將每台主機的雙電源分別連到兩台UPS提供電力保護的架構。

在UPS上有一張網路管理控制卡,要讓UPS能控制這台電腦就必須在下圖電腦端輸入UPS裡頭設定的帳密與通關密語

設定UPS身上網路控制卡的連線資訊

確認兩方設備的連線資訊是否正確

設定正確的話設備之間就能建立起溝通的橋樑

最後問你是否需要在連線的主機關機後將UPS設備整個關閉,如果環境單純one by one對接這麼做是OK的,但我有10多個系統或設備要關機,而且如果連UPS也關機了,當市電恢復時我就只能到現場開機,可能還得先等UPS電瓶充電到一定程度後才能開啟伺服器,所以,UPS你還是認命點在前端擋子彈吧,市電中斷太久電力耗盡的狀況就當作定期放電,這其實也是電瓶保養的一環,學校每學期都會遇到機電保養或斷電,或許正因此我兩台UPS共16顆電瓶到目前用到第三套,每套幾乎都可以撐到五年。

*冗餘模式-適用機房伺服器設備

而機櫃伺服器在安裝PCNS Agent時因為可以設定冗餘模式,有幾個地方會不同,雙電源搭配雙UPS就要選Redundant。

然後兩台UPS網路控制卡的IP都要增加進來。

現在我141的伺服器要連向2台UPS網路控制卡的IP131與132

接著只要使用者帳密與通關密語都能pass,冗餘架構就能建立完成

如果發生失敗,可以檢查兩台UPS帳密是否一致,或是重設一次通關密語,設定冗餘模式時,兩台UPS的帳密跟通關密語一定要一致才能連線成功,變更通關密語的地方在這裡。

在主機與UPS彼此能溝通的步驟完成後,接下來就要繼續設定發生電力異常時需要UPS進行的動作

登入後在選單第二項Configure Events針對特定事件發動關機行為。

基本上我的習慣是當電力發生底下五種狀況時讓UPS執行關機動作:


1.UPS On Battery:
在線互動式UPS平常靠市電,在供電異常驟降或不穩時會改吃UPS電瓶,所以當設備使用電瓶供電達120秒,則執行伺服器關機。

2.Battery Discharged
當電瓶壽終正寢時關閉伺服器,通常電瓶要掛之前,面板上Replace Battery燈號會先亮,提醒管理者更換電瓶。


3.Communication lost while on Battery
當UPS與電腦伺服器通訊中斷且伺服器使用電瓶供電時,在持續發生60秒時執行關機。起初不太理解這是甚麼意思,猜想是停電後或許網路設備也跟著斷電了,因此UPS無法透過網路呼叫電腦關機時,讓主機透過Commadn自行關機,不過我應該不會有這種情況,因為學校網路設備櫃的電源也是UPS提供的。

4.UPS Temperature Overheated
當UPS溫度過熱持續時間30秒即執行關機(不太有機會發生)。


5.UPS Overloaded
當UPS超過負載持續時間達30秒即執行關機 (有做冗餘架構就不太有機會發生) 。

前面幾項關機事件設定完成後,回到UPS client裏頭會發現剛才安裝好PCNS Agent的辦公電腦.212已經註冊在裏頭了

而冗餘模式做完後,就能透過UPS131與132一同來保護伺服器141

關閉ESXi實體主機

要關閉ESXi實體主機以往得再花一點錢透過vMA處理,現在可以直接使用PCNS For Virtualization匯入ova來處理,檔案名稱是PCNS_vapp_en_4.4.1.ova,放在這裡。匯入開啟虛擬機器後要變更網路設定(需要與ESXi主機同網段)、密碼等資訊就能連上它的PCNS設定流程,後續步驟與一般PCNS大同小異就不做紀錄了。

開機後的畫面會有1-6個選項可設定,比較重要的只有第4(設定網路)、5(變更密碼)這兩項,都確認無誤後按下c就會開始寫入設定。

PCNS For Virtualization設定內容會多一個Notification的欄位,其餘幾乎一模一樣。

最後回到ESXi主機設定自動啟動組態以及各虛擬機的啟動關閉設定即可。

斷電測試

隨意將一台透過PCNS管理的電腦設定為電瓶介入後立即進行關機

結果大約等不到十秒鐘,電腦上就跳出訊息PCNS要將系統關閉了。

結語:

兩台都已經用了十多年的UPS,約每4-5年換一次電瓶至今用到第三套電瓶了,到現在也都還能取得原廠在PCNS Agent上的更新支援,光是這一點我就認為值得了,而且這次下載的v4.4.1版能同時支援Win11與Server2019。2022測試後再上來更新筆記,今天為了更新Agent以及避免安裝時新舊版本設備都在一起會造成混淆,所以事先已將UPS原本保護的連線設備都移除,接下來就趕緊替所有設備重上新版本以避免遇到突發狀況吧。

發佈留言