山東科普維保:UPS電源因控制系統異常導致的停機事件
數據中心機房供電保障設備中,UPS、HVDC、發電機組等設備均在不同等級的機房廣泛應用;UPS、HVDC 電源系統因常年處于運行狀態,會出現一些故障;而在線式 UPS 電源因設計電路合理,驅動功率元件容量所取的余量較大,相對來說電源電路故障率較低,而由電池引起的故障率較高。正確的使用和維護好UPS 電池的壽命是降低不間斷電源故障率的關鍵因素。同時還要防范因 UPS 內部控制(接線、軟件等) 系統引起的異常停機事故!
下面是一個 UPS 因控制系統異常導致的停機事件,分享一下,希望引起各位運維同行的重視。
故障現象:
電力監控系統突然報出多條告警信息:UPS 異常、UPS 輸出屏失電(電壓、電流同時歸 0)、機房 N 個列頭柜失電、UPS 系統 BCB 電池開關跳位等;
現場狀況:
值班人員立即到場檢查報警UPS,現場狀態如下:
1、現場 UPS 輸入柜主路、旁路電源開關狀態無異常;
2、輸出柜各開關處于合閘位置,輸出柜失電;
3、輸出柜各開關對應機房列頭柜失電;
4、報警 UPS 對應蓄電池組開關處于跳閘位置;重合無法合閘;
5、UPS 本體各狀態指示燈熄滅,報警燈常亮,同時伴有報警聲;
應急措施:
1、立即對UPS 電源各開關狀態及電量各參數進行檢查, 電源柜三相電源電壓無異常,主路、旁路開關均處于合閘位置,電流為 0;將 UPS 輸出屏主進開關分閘;
2、按 UPS 本體故障清除鍵按鈕;
3、將UPS 輸入主、旁路斷路器分閘,靜待 30 秒后恢復合閘;此時 UPS 自動轉為旁路運行狀態;
4、將 UPS 運行狀態由旁路供電模式轉換為正常整流逆變模式;檢查 UPS 輸出各項電量參數無異常;此時再將電池組開關由跳位分閘到分位,然后重新進行合閘,開關恢復正常合閘位置;
5、將 UPS 輸出屏各開關恢復合閘位置,機房失電列頭柜恢復供電;
6、通知 UPS 廠家人員到場對故障設備進行檢查,排除故障隱患;
故障原因排查:
UPS 廠家維護工程師到達現場,對 UPS 內部數據導出檢查;發現在本 UPS 故障時,UPS 本機發出了緊急停機指令,導致 UPS 停機。隨后對 UPS 本體仔細檢查,發現 EPO 連線插頭未插實!無其他異?,F象。
結合現場實際情況:
1、UPS 電源柜主、旁路開關狀態正常,輸出中斷,BCB 電池組開關跳閘,無法手動恢復合閘狀態;
2、UPS 設備本體主、旁路輸入回路鎖死;
3、UPS 設備市電輸入主、旁路分(UPS 本體斷電)合閘后,UPS 自動恢復旁路運行模式;
4、手動啟動逆變器,UPS 切換至主路逆變供電狀態;
5、合 BCB 電池開關操作成功。
以上現象符合EPO 動作后緊急停機特征,故本次故障可判定為UPS 因內部錯誤指令導致停機故障。
后續改進措施:
UPS 是設備是供電可靠性的最后一道保障,為保障數據中心供電安全可靠,維護團隊舉一反三,防止類似問題再次發生。
立即對所有 UPS 運行安全隱患進行檢查:全面檢查UPS 運行環境,檢查風扇運行情況,確保 UPS 散熱條件滿足要求; 檢查 UPS 電池運行狀態,確保電池具有后備保障能力;檢查各 UPS 的內部EPO 接線情況,防止類似故障再次發生。