UPS電源的實(shí)時(shí)監(jiān)控系統(tǒng)簡(jiǎn)析
掃描二維碼
隨時(shí)隨地手機(jī)看文章
衡量UPS系統(tǒng)安全性能的指標(biāo)中,有兩個(gè)指標(biāo)尤其重要:一個(gè)是系統(tǒng)的可靠性,另一個(gè)則是可用性。作為提高電源系統(tǒng)質(zhì)量的主要設(shè)備,UPS系統(tǒng)本身的可靠性、可用性,是衡量UPS系統(tǒng)性能最重要、最根本的指標(biāo)。這里對(duì)影響UPS可用性的因素進(jìn)行詳盡的剖析,從而得出通過采用先迸UPS智能管理技術(shù)來提高系統(tǒng)可用性的有效方法。新的UPS管理技術(shù)及產(chǎn)品,對(duì)提高UPS系統(tǒng)的可用性具有重要的意義。
從系統(tǒng)可用性的定義可以看出,提高UPS系統(tǒng)可用性有兩個(gè)途徑:一是提高系統(tǒng)可靠性,即延長(zhǎng)平均無故障時(shí)間MTBF,另一途徑則是降低平均故障修復(fù)時(shí)間 MTTR。從UPS系統(tǒng)平均故障修復(fù)時(shí)間MTTR與UPS系統(tǒng)可用性的關(guān)系可以看出,縮短平均故障修復(fù)時(shí)間MTTR對(duì)提高系統(tǒng)可用性具有更明顯的作用。
這里通過一個(gè)具體的案例詳細(xì)分析平均故障修復(fù)時(shí)間MTTR的構(gòu)成。所分析的案例是一臺(tái)80kVA的UPS系統(tǒng)。如果這樣的UPS系統(tǒng)發(fā)生故障,通常是需要廠商專業(yè)技術(shù)人員才能進(jìn)行維修的。對(duì)于這樣一個(gè)系統(tǒng),眾多廠商紛紛提出了“4小時(shí)響應(yīng)”、“24小時(shí)修復(fù)”等服務(wù)承諾。但值得注意的是,這些時(shí)間并非真正的故障恢復(fù)時(shí)間。首先,所謂的“4小時(shí)響應(yīng)”,通常僅僅是指廠商方面的工程師在得到用戶的通知到做出上門維修計(jì)劃的時(shí)間,離真正故障修復(fù)還有相當(dāng)?shù)木嚯x,而“24小時(shí)修復(fù)”則會(huì)有很多的附加條件,如發(fā)生故障的設(shè)備所在地有無工程師、備件等條件。其實(shí),真正的故障修復(fù)時(shí)間與整個(gè)故障修復(fù)過程的每個(gè)環(huán)節(jié)都有緊密的聯(lián)系。
下面就上述UPS系統(tǒng)故障案例的修復(fù)時(shí)間進(jìn)一步地按實(shí)際分段加以詳細(xì)分析時(shí)發(fā)現(xiàn),一次故障修復(fù)時(shí)間由以下時(shí)間段構(gòu)成:
故障報(bào)警通知時(shí)間。從故障發(fā)生到用戶發(fā)現(xiàn)故障的時(shí)間,用T1表示。
廠商反應(yīng)時(shí)間。用戶將故障信息反饋給廠商的售后服務(wù)部門,到廠商售后服務(wù)工程師與用戶溝通,做出上門維修計(jì)劃的時(shí)間,用T2表示。
故障初步判斷時(shí)間。廠商售后服務(wù)工程師通過電話等方式與用戶溝通,了解故障現(xiàn)象和故障過程,對(duì)故障做出基本判斷的時(shí)間,用T3表示。
上門服務(wù)時(shí)間。從廠商售后服務(wù)工程師通過電話等方式與用戶溝通對(duì)故障做出基本判斷后到上門服務(wù)的時(shí)間,用T4表示。
故障排除時(shí)間。從廠商售后服務(wù)工程師上門服務(wù),到故障排除的時(shí)間,用T5表示。
1.首先來分析第一段時(shí)間——故障報(bào)警通知時(shí)間T1
看起來這段時(shí)間應(yīng)該是很短,但是實(shí)際上它存在極大的不確定性。首先,由于中、大容量的UPS一般安裝放置在專用的電源機(jī)房,由于噪音、安全等原因,電源機(jī)房平時(shí)一般無人值守。因此,如果UPS發(fā)生故障往往要等到故障產(chǎn)生嚴(yán)重后果后才會(huì)被用戶發(fā)現(xiàn),同時(shí),由于UPS系統(tǒng)作為強(qiáng)電設(shè)備,需要具有專業(yè)知識(shí)、經(jīng)過專門培訓(xùn)的人員才能進(jìn)行日常的維護(hù)操作,所以在出現(xiàn)故障后也需要專業(yè)人員到現(xiàn)場(chǎng)進(jìn)行評(píng)估、判斷,然后才能進(jìn)行相應(yīng)的操作,這一因素也制約了故障通知的速度。正是由于上述原因,加上空間距離及專業(yè)知識(shí)方面的不確定因素,UPS的故障通知時(shí)間T1也就變得具有很大的不確定性,使它可能成為降低系統(tǒng)可用性的一個(gè)重要因素。 有這樣一個(gè)具體的實(shí)際案例。天津某銀行數(shù)據(jù)中心,使用了1臺(tái)125kVA的UPS為數(shù)據(jù)中心供電,UPS系統(tǒng)安裝在數(shù)據(jù)中心地下2層,平時(shí)無人值守。一天上午10點(diǎn),UPS系統(tǒng)突然出現(xiàn)10s的短暫停電,導(dǎo)致整個(gè)數(shù)據(jù)中心癱瘓。經(jīng)工程師現(xiàn)場(chǎng)檢查發(fā)現(xiàn),UPS其實(shí)并無任何硬件故障,只是在故障發(fā)生時(shí)運(yùn)行在旁路狀態(tài),經(jīng)查閱UPS運(yùn)行歷史記錄發(fā)現(xiàn),當(dāng)時(shí)市電正好發(fā)生10s的短暫故障停電,由于UPS運(yùn)行在旁路狀態(tài),相當(dāng)于市電向負(fù)載直接供電,所以市電停電直接影響到負(fù)載。但進(jìn)一步檢查發(fā)現(xiàn),UPS實(shí)際上在兩天以前就已經(jīng)處于旁路狀態(tài),其原因是大容量負(fù)載啟動(dòng)導(dǎo)致的過載并鎖定在旁路狀態(tài)(UPS設(shè)置運(yùn)行模式),盡管當(dāng)時(shí)UPS已經(jīng)發(fā)出了聲音報(bào)警信號(hào),由于空間距離的原因,工作人員并末聽到報(bào)警聲訊,所以直到發(fā)生嚴(yán)重的后果以后才發(fā)覺。從這個(gè)案例可以看到,通常認(rèn)為并不重要的故障通知時(shí)間T1竟然長(zhǎng)達(dá)兩天。由于乃存在較大的不確定性,實(shí)際上對(duì)MTTR具有很大的影響,它可能是導(dǎo)致UPS系統(tǒng)可用性降低的重要原因。
2、再來看看第二段時(shí)間——廠商的反應(yīng)時(shí)間T2
由于中、大容量UPS的維修需要專業(yè)的知識(shí)及技能,通常需要由廠商技術(shù)人員完成,這段時(shí)間的長(zhǎng)短反映了廠商對(duì)售后服務(wù)的重視程度及能力。不同的廠商分別為不同的產(chǎn)品提供5×8(每周5天,每天8h的法定工作時(shí)間內(nèi))、7×24(每周7天,每天24h全天候)的售后服務(wù)響應(yīng)。
3、再看看第三段時(shí)間——故障初步判斷時(shí)間T3
為了加快故障修復(fù)速度,廠商售后服務(wù)工程師在提供上門維修服務(wù)之前,通常需要通過電話等通信手段與用戶進(jìn)行溝通,了解故障現(xiàn)象,通過用戶得到UPS系統(tǒng)的故障狀態(tài)和相關(guān)信息。這一工作非常重要,故障初步判斷對(duì)準(zhǔn)備接下來的故障現(xiàn)場(chǎng)修復(fù)起著指導(dǎo)作用。這段時(shí)間的長(zhǎng)短與很多因素有關(guān),這些因素包括:用戶維護(hù)水平和故障前系統(tǒng)的運(yùn)行狀況、售后服務(wù)工程師的技術(shù)能力和溝通能力、產(chǎn)品智能管理和使用的方便程度、是否人性化等。譬如,用戶對(duì)UPS系統(tǒng)越了解,用戶運(yùn)行維護(hù)人員的技術(shù)水平越高,故障初步判斷時(shí)間就越短。除了用戶、售后服務(wù)工程師的技術(shù)能力對(duì)T3具有很大的影響外,溝通能力等非技術(shù)因素往往成為決定T3長(zhǎng)短的重要因素,用戶與售后服務(wù)工程師的方言、語(yǔ)言表達(dá)習(xí)慣甚至性格等非客觀因素的差異和售后服務(wù)工程師的溝通技巧等,都會(huì)對(duì)溝通的有效性產(chǎn)生直接的影響,從而影響T3的長(zhǎng)短。
4、再看看第四段時(shí)間——上門服務(wù)時(shí)間T4
廠商工程師上門服務(wù)時(shí)間受到空間距離、天氣情況、交通狀況等條件的影響,但是相對(duì)容易控制,在進(jìn)行MTTR分析時(shí),可以作為相對(duì)穩(wěn)定的參數(shù)處理。
5、最后,再看看第五段時(shí)間——故障排除時(shí)間T5
這段時(shí)間除了與售后服務(wù)工程師的技術(shù)水平有關(guān)外,還直接受到第三步故障初步判斷結(jié)果的影響。由于故障初步判斷的失誤,可能導(dǎo)致帶到現(xiàn)場(chǎng)的備件不能滿足維修的需要,從而使故障不能很快得到修復(fù)。另外,UPS系統(tǒng)的結(jié)構(gòu)設(shè)計(jì)也會(huì)對(duì)故障排除時(shí)間幾有很大程度的影響。例如,有些廠商的UPS采用模塊化設(shè)計(jì),其故障部件的更換時(shí)間大為縮短,也有些廠商是采用所謂“N+1”的模塊化加冗余配置技術(shù),這就更加大大縮短故障的修復(fù)時(shí)間T5。
綜上所述,在影響故障修復(fù)時(shí)間的各個(gè)階段中,除了廠商的服務(wù)標(biāo)準(zhǔn)和工程師的技術(shù)水平對(duì)故障修復(fù)時(shí)間具有重要的影響外,故障報(bào)警通知、故障初步判斷等環(huán)節(jié),由于其容易受到眾多非確定因素的影響,具有很大的不確定性,同時(shí)又不為大家所重視,所以往往成為延長(zhǎng)故障修復(fù)時(shí)間MTTR的主要原因。 為了有效縮短T1(故障報(bào)警通知時(shí)間)、T3,(故障初步判斷時(shí)間)和T5(故障排除時(shí)間),首先,UPS系統(tǒng)必須有故障遠(yuǎn)程報(bào)警的功能,UPS系統(tǒng)能在故障發(fā)生時(shí),通過各種有效的遠(yuǎn)程報(bào)警手段,向不在現(xiàn)場(chǎng)的系統(tǒng)運(yùn)行維護(hù)人員及時(shí)報(bào)告故障信息,其次,售后服務(wù)工程師能通過直接、客觀的手段了解故障情況,從而得到有關(guān)故障的正確、完整的信息,避免由于人為因素造成的信息失真、缺漏。
要想使UPS系統(tǒng)具備遠(yuǎn)程報(bào)警、遠(yuǎn)程測(cè)試、故障遠(yuǎn)程診斷和遠(yuǎn)程修復(fù)等新的功能,這就要借助電源管理的新技術(shù)(包括一系列的附件、軟件產(chǎn)品)才能實(shí)現(xiàn)。以下進(jìn)一步介紹采用這些電源管理技術(shù)后的故障修復(fù)過程,從中不難看出,電源管理技術(shù)對(duì)UPS系統(tǒng)的可用性正在產(chǎn)生深遠(yuǎn)的影響。
給UPS系統(tǒng)裝備上新的遠(yuǎn)程報(bào)警管理卡,系統(tǒng)管理員可以對(duì)這種遠(yuǎn)程報(bào)警卡進(jìn)行設(shè)置。系統(tǒng)管理員設(shè)置好了以后,遠(yuǎn)程報(bào)警管理卡便能夠根據(jù)系統(tǒng)管理員的設(shè)置定期對(duì)UPS自動(dòng)進(jìn)行檢測(cè)。當(dāng)遠(yuǎn)程報(bào)警管理卡檢測(cè)到系統(tǒng)的潛在問題或者故障發(fā)生時(shí),會(huì)立即自動(dòng)通過電話、尋呼、網(wǎng)絡(luò)郵件、手機(jī)短信等方式向運(yùn)行維護(hù)人員發(fā)出報(bào)警通知,避免故障的發(fā)生或者及時(shí)將故障警報(bào)通知廠商售后服務(wù)部門,從而將報(bào)警時(shí)間T1縮短到“分鐘級(jí)”。UPS系統(tǒng)維護(hù)人員在得到報(bào)警通知后,立即通知廠商售后服務(wù)人員,廠商售后服務(wù)工程師能通過電話網(wǎng)絡(luò)、Internet,直接對(duì)故障UPS進(jìn)行訪問、遠(yuǎn)程檢測(cè)和遠(yuǎn)程故障診斷,以及下載UPS運(yùn)行參數(shù)、運(yùn)行歷史記錄等,這一切都由售后服務(wù)工程師直接進(jìn)行,無需用戶的參與,避免了人為因素的干擾,使得對(duì)故障的初步判斷更為準(zhǔn)確,這可大大縮短故障初步判斷時(shí)間T3,也為縮短故障排除時(shí)間T5奠定基礎(chǔ)。在判斷清楚故障情況后,售后服務(wù)工程師就可以根據(jù)情況進(jìn)行處理,如果故障僅僅是由于系統(tǒng)的某些參數(shù)設(shè)置不當(dāng),則只需要對(duì)UPS系統(tǒng)相應(yīng)的參數(shù)進(jìn)行遠(yuǎn)程調(diào)整就可以完成故障排除,如果需要上門排除故障時(shí),工程師就可以直接攜帶備件進(jìn)行上門維修。由于故障初步判斷相對(duì)準(zhǔn)確,故障排除時(shí)間T5也相應(yīng)縮短。整個(gè)平均故障恢復(fù)時(shí)間MT