智能運(yùn)維如何聚集5G的業(yè)務(wù)
掃描二維碼
隨時(shí)隨地手機(jī)看文章
網(wǎng)絡(luò)功能,經(jīng)歷了從各設(shè)備廠家物理機(jī)無(wú)統(tǒng)一標(biāo)準(zhǔn)的傳統(tǒng)設(shè)備(mips、x86、np)演進(jìn)到物理設(shè)備基本統(tǒng)一x86服務(wù)器,上層應(yīng)用虛擬化,繼續(xù)演進(jìn)到云、云原生。短短十年間,4G演進(jìn)到5G,5G在2020年走向成熟。
4G走向5G,電信設(shè)備從傳統(tǒng)設(shè)備演進(jìn)到虛擬化、云化、時(shí)代,軟硬件架構(gòu)都發(fā)生了翻天覆地的變化。電信業(yè)引入了很多IT的軟件架構(gòu)、思維、方法等;開(kāi)源、APP和基礎(chǔ)設(shè)施解耦等給電信應(yīng)用帶來(lái)了很多好處、便利,同時(shí)也帶來(lái)了新的問(wèn)題,其中對(duì)電信運(yùn)維方式產(chǎn)生了較大的影響。
在2G/3G/4G傳統(tǒng)設(shè)備時(shí),業(yè)務(wù)一旦出現(xiàn)問(wèn)題,運(yùn)維人員不需要太多區(qū)分是硬件故障還是軟件故障,設(shè)備本身先進(jìn)行軟硬件一體的主備倒換,先恢復(fù)業(yè)務(wù),再進(jìn)行故障定位。
在當(dāng)前云時(shí)代,基礎(chǔ)設(shè)施集中化,中心DC物理設(shè)備規(guī)模龐大(》1000),網(wǎng)絡(luò)功能分布式打散分布在不同的物理節(jié)點(diǎn)上,一旦出現(xiàn)故障,原有的軟硬件一體化主備倒換方式不再有效,需要更有效性自動(dòng)化識(shí)別能力,識(shí)別故障根源是硬件原因、云平臺(tái)原因、還是上層VNF的原因,快速區(qū)別出故障的根本原因,才能快速對(duì)故障進(jìn)行有效隔離和恢復(fù)。
實(shí)現(xiàn)自動(dòng)化和智能化的網(wǎng)絡(luò)運(yùn)維,是5G成熟關(guān)鍵技術(shù)。智能監(jiān)控、故障分析等是自動(dòng)化運(yùn)維中關(guān)鍵技術(shù)。
一、智能監(jiān)控
智能監(jiān)控的目標(biāo)是,軟件自動(dòng)化發(fā)現(xiàn)系統(tǒng)運(yùn)行異常,自動(dòng)觸發(fā)下一步對(duì)異常的分析,從而定位出系統(tǒng)異常根源,快速修復(fù)故障。
實(shí)現(xiàn)智能監(jiān)控有兩種方式:直接方式和間接方式。
直接方式:對(duì)環(huán)境、硬件(計(jì)算、存儲(chǔ)、網(wǎng)絡(luò))、Cloud OS等關(guān)鍵設(shè)施進(jìn)行指標(biāo)監(jiān)控,一旦出現(xiàn)異常數(shù)據(jù),進(jìn)行直接的故障告警、定位;
間接方式:對(duì)5G業(yè)務(wù)關(guān)鍵KPI進(jìn)行監(jiān)控和多維度的對(duì)比分析,通過(guò)分析發(fā)現(xiàn)KPI異常判斷故障是否發(fā)生,從而觸發(fā)故障進(jìn)一步關(guān)聯(lián)分析定位。
多維度的對(duì)比分析可以從幾個(gè)方面進(jìn)行。
歷史數(shù)據(jù)對(duì)比方式。歷史總是相似相近,歷史數(shù)據(jù)對(duì)比分析按天、周、月、年、節(jié)假日歷史數(shù)據(jù)綜合進(jìn)行,通過(guò)AI算法預(yù)先給出下一階段(小時(shí)、天)KPI預(yù)測(cè)數(shù)據(jù),再根據(jù)實(shí)時(shí)采集得到的數(shù)據(jù),對(duì)比判斷系統(tǒng)是否異常;
同類對(duì)比方式。同類型的5G NF的同類KPI變化應(yīng)該趨于一致,一旦出現(xiàn)較大(超過(guò)域值)波動(dòng),可以判斷系統(tǒng)異常;單一的NF內(nèi)部,不同微服務(wù)的處理KPI同樣也應(yīng)該趨同,如果不一致同樣也可以判斷系統(tǒng)異常。
二、故障分析
故障根源分析可以從兩個(gè)方面入手,告警、日志。在監(jiān)控系統(tǒng)發(fā)現(xiàn)系統(tǒng)異常后,觸發(fā)縱向分層告警、分層日志關(guān)聯(lián)分析;橫向關(guān)聯(lián)NF內(nèi)微服務(wù)間,NF-NF間進(jìn)行關(guān)聯(lián)分析,定位故障根源。
1,縱向關(guān)聯(lián)
縱向關(guān)聯(lián)在垂直架構(gòu)上,網(wǎng)絡(luò)構(gòu)包括物理層、虛擬層、業(yè)務(wù)層三個(gè)層次,當(dāng)?shù)讓映霈F(xiàn)故障時(shí),將影響上層業(yè)務(wù)。如圖1:
圖1, 三層架構(gòu)示意圖
縱向關(guān)聯(lián)解決的關(guān)鍵問(wèn)題:底層硬件、虛擬層故障一旦發(fā)生時(shí),上層業(yè)務(wù)KPI等指標(biāo)會(huì)出現(xiàn)異常,垂直關(guān)聯(lián)把上層業(yè)務(wù)的異常和底層故障關(guān)聯(lián)起來(lái),識(shí)別出根故障的根源是在哪個(gè)層次PIM層、VIM層還是VNF業(yè)務(wù)本身。
2,橫向關(guān)聯(lián)
在水平層次上,VNF內(nèi)部的微服務(wù)間存在業(yè)務(wù)流程關(guān)聯(lián),存在相互影響的關(guān)系,微服務(wù)間橫向關(guān)聯(lián)用作發(fā)現(xiàn)出問(wèn)題根本原因的微服務(wù),如圖2。
圖2,同一VNF內(nèi)不同微服務(wù)集群示意圖
在VNF-VNF間業(yè)務(wù)流程在不同節(jié)點(diǎn)間流轉(zhuǎn)時(shí),如果某個(gè)節(jié)點(diǎn)發(fā)生故障,也將影響到與其相關(guān)的其他節(jié)點(diǎn),如圖3。比如:AMF、SMF、PCF、UDM等相互之間的關(guān)聯(lián)影響,是業(yè)務(wù)流程的不同節(jié)點(diǎn)。
圖3. 不同VNF互聯(lián)示意圖
綜上可知,橫向關(guān)聯(lián)能夠解決的關(guān)鍵問(wèn)題在于,把一個(gè)網(wǎng)元的故障和另一個(gè)業(yè)務(wù)相關(guān)網(wǎng)元的故障關(guān)聯(lián)起來(lái),把一個(gè)微服的故障和真正出問(wèn)題的微服務(wù)關(guān)聯(lián),在應(yīng)用層這同一層次識(shí)別出真正出問(wèn)題的微服務(wù)或組件。
3,常用技術(shù)
常用技術(shù)包括:數(shù)據(jù)采集、數(shù)據(jù)分類(清洗)、數(shù)據(jù)監(jiān)控、數(shù)據(jù)關(guān)聯(lián)、定層定位等。
數(shù)據(jù)采集:業(yè)務(wù)告警、業(yè)務(wù)kpi、業(yè)務(wù)配置操作日志、網(wǎng)絡(luò)設(shè)備操作日志、存儲(chǔ)設(shè)備操作日志、虛擬設(shè)備操作日志、虛擬層平臺(tái)操作日志、虛擬層系統(tǒng)運(yùn)行日志等;
數(shù)據(jù)分類:數(shù)據(jù)在清洗分類時(shí)主要有幾個(gè)標(biāo)簽,如時(shí)間、位置、我影響誰(shuí)(分類標(biāo)簽)、誰(shuí)影響我(分類標(biāo)簽)。分類標(biāo)簽有網(wǎng)絡(luò)、主機(jī)、存儲(chǔ)、配置;
數(shù)據(jù)監(jiān)控:一般對(duì)上層KPI進(jìn)行監(jiān)控,KPI數(shù)據(jù)是統(tǒng)計(jì)數(shù)據(jù),可以引入AI算法,對(duì)異常KPI進(jìn)行判斷,一旦出現(xiàn)異常數(shù)據(jù),判斷系統(tǒng)出現(xiàn)故障,觸發(fā)故障根源分析系統(tǒng);
數(shù)據(jù)關(guān)聯(lián):主要根據(jù)預(yù)置的模板進(jìn)行,模板以標(biāo)簽的形式進(jìn)行關(guān)聯(lián),其中位置、時(shí)間、我影響誰(shuí)、誰(shuí)影響我,是數(shù)據(jù)關(guān)聯(lián)主要依據(jù);
定層定位:通過(guò)數(shù)據(jù)關(guān)聯(lián),從上往下(業(yè)務(wù)、虛層、物理層)確定最終的關(guān)聯(lián)節(jié)點(diǎn),水平關(guān)聯(lián)通過(guò)“分類標(biāo)簽”最終找到故障起因的網(wǎng)元、微服務(wù)或組件。
自動(dòng)化運(yùn)維的關(guān)鍵技術(shù),除了故障監(jiān)控和故障根源分層關(guān)聯(lián)分析,故障自愈能力、全局透視、跨域全方位數(shù)據(jù)采集能力、全網(wǎng)網(wǎng)絡(luò)拓?fù)涔芾?、一鍵自動(dòng)化測(cè)試、一鍵自動(dòng)化業(yè)務(wù)部署等,都是智能運(yùn)維應(yīng)具備的成熟商用能力。中興通訊智能運(yùn)維方案,化繁為簡(jiǎn),降低5G云原生及服務(wù)化軟件架構(gòu)帶來(lái)的系統(tǒng)維護(hù)復(fù)雜性,致力于聚焦5G業(yè)務(wù)本身,為客戶創(chuàng)造更大價(jià)值。