運營商的自動化與智能化運維現(xiàn)狀分析
運營商的運維現(xiàn)狀
連接超過50億移動用戶的電信行業(yè)已徹底改變了世界。它讓我們彼此相連、帶給我們娛樂、傳遞給我們新聞、給予我們靈感。一直以來,電信運營商都是這些變化的掌舵者, 但如今運營商們卻陷入了與互聯(lián)網(wǎng)和OTT服務(wù)商日趨激烈的競爭之中。他們需要在不斷追趕中實現(xiàn)自身的數(shù)字化運營運維轉(zhuǎn)型,以迎接來自這些最成功的數(shù)字化企業(yè)的挑戰(zhàn)。
如今的網(wǎng)絡(luò)主要是由人來管理。在網(wǎng)絡(luò)運維中心,工程師們不僅每天監(jiān)控著成千上萬的告警,還要創(chuàng)建故障單來跟蹤問題的解決。該運維模式依賴于煙囪式的運維軟件,居高不下的人工和重復(fù)性勞動、垂直且不易拉通的組織結(jié)構(gòu),難以給運營商帶去數(shù)字化轉(zhuǎn)型的收益。要提高成本效益和質(zhì)量,運營商需要探索創(chuàng)新的運維模式,并從互聯(lián)網(wǎng)行業(yè)汲取經(jīng)驗,以便建立更加敏捷的運維模式。
正如加拿大TELUS首席無線架構(gòu)師Frank Qing所說:“雖說我們使用的是21世紀(jì)的4G網(wǎng)絡(luò),但網(wǎng)絡(luò)運維在某種程度上卻還停留在18世紀(jì)。機器制造都已經(jīng)實現(xiàn)了自動化了,但電信行業(yè)仍在使用人工勞動力?!?/p>
運維需要自動化與智能化
部分流程不可視、不可管,煙囪式運維模式和昂貴的運維成本,是當(dāng)前運維的主要痛點。大量工作需要人來手動完成,導(dǎo)致故障平均恢復(fù)時長較長,這些都影響了網(wǎng)絡(luò)業(yè)務(wù)質(zhì)量和終端用戶體驗。
運營商目前使用的大多數(shù)運維支撐軟件(OSS)都是基于封閉的軟件架構(gòu)設(shè)計的。這些架構(gòu)基于不同領(lǐng)域部署,從而形成一個個運維孤島,使得軟件變更周期不可控,拉長了新業(yè)務(wù)的上市時間。
運維工程師必須經(jīng)過培訓(xùn)才能使用軟件系統(tǒng)執(zhí)行日常任務(wù)。他們未必懂得如何增強軟件以適應(yīng)不斷變化需求,還可能受限于不允許定制軟件的功能限制。由于手動操作的單調(diào)和重復(fù)性,運維人員會失去動力??菰锏墓ぷ饕矊?dǎo)致嚴(yán)重的運維人員流失。
運維組織層級化,官僚化。例如,通常有三個層級的客戶服務(wù)和網(wǎng)絡(luò)運維,這也是煙囪式軟件和流程式煙囪的一個表現(xiàn),并且在級與級之間存在大量的手動切換。
當(dāng)前運維模型的這些不足是自動化和智能化的關(guān)鍵驅(qū)動因素。實現(xiàn)自動化和智能化有助于運營商對其運營進行全面檢查,以實現(xiàn)業(yè)務(wù),服務(wù)和運維的靈活性。
然而,轉(zhuǎn)型并不容易。根據(jù)麥肯錫(McKinsey )的調(diào)研,基于種種原因,超過80%的轉(zhuǎn)型均以失敗告終或無法實現(xiàn)其預(yù)期價值。所以電信行業(yè)應(yīng)該向OTT服務(wù)商學(xué)習(xí),去了解他們運營靈活且成功的原因。
向OTT服務(wù)商學(xué)習(xí)
互聯(lián)網(wǎng)供應(yīng)商,特別是OTT服務(wù)商,已經(jīng)顛覆或正在改變幾乎所有行業(yè),哪怕是根基穩(wěn)固的傳統(tǒng)企業(yè)也不得不做出改變。
比如,亞馬遜借助AWS業(yè)務(wù),將存儲和計算資源商品化,提供按需的、基于云的IaaS和SaaS解決方案,顛覆了傳統(tǒng)計算機行業(yè)。與此同時,優(yōu)步和愛彼迎給交通出行和酒店業(yè)也帶來了類似的影響。
這些企業(yè)將其成功大部分歸功于他們運營模式,并歸納了下面關(guān)于數(shù)字運營的基礎(chǔ)共性,如:
高度自動化的運營流程
云基礎(chǔ)架構(gòu)
熟練掌握軟件技能的操作人員
基于DevOps原則進行業(yè)務(wù)設(shè)計和交付
使用基于微服務(wù)的軟件架構(gòu)
應(yīng)用程序編程接口(APIs)
谷歌使用DevOps建立“站點可靠性工程”范式,打造具有運營思維的軟件產(chǎn)品,這些軟件可以自動執(zhí)行重復(fù)和反復(fù)出現(xiàn)的任務(wù),以減少過程中出現(xiàn)的手動錯誤。優(yōu)步采用靈活且可擴展的基于微服務(wù)的軟件架構(gòu)取代單片操作軟件架構(gòu),以便快速,可靠和獨立地跨區(qū)域發(fā)布軟件。 Netflix基于云的服務(wù)基礎(chǔ)架構(gòu)和DevOps流程實現(xiàn)軟件驅(qū)動的自動化運營。
自動化:自主運維之路
雖然目標(biāo)是自主運維,但是這種轉(zhuǎn)型卻是循序漸進的,只有采用漸進的自動化方法才能實現(xiàn)。作為流程轉(zhuǎn)型的一部分,運營商應(yīng)不斷尋求自動化的機會。他們應(yīng)該遵循這個原則:所有可自動化的操作都應(yīng)該被自動化。下面的圖1說明了自動化自主運維的演變。
依賴重復(fù)的手工流程體現(xiàn)在:操作人員要么把相應(yīng)的步驟寫入手冊,要么將其形成個人知識庫。但即便手冊說明足夠詳細,操作人員經(jīng)驗足夠豐富,依賴手工流程也容易出錯。 不精準(zhǔn)的分析和不正確的配置所帶來的風(fēng)險極高,可能會帶來服務(wù)中斷、收入損失和客戶流失等問題。因此保證每次任務(wù)都能準(zhǔn)確一致地完成,是非常重要的。
軟件自動化對手工流程最有助益,組件化的軟件工程方法可以精確地識別重復(fù)的手動任務(wù)。首先就是把簡單且反復(fù)出現(xiàn)的手動過程自動化。自動化的最終目標(biāo)是將軟件慣例打包為可重用的組件,從而使這些組件能夠根據(jù)數(shù)據(jù)驅(qū)動的決策點和規(guī)則自動觸發(fā)和執(zhí)行任務(wù)。
智能化:實現(xiàn)預(yù)測預(yù)防性運維之路
工程師們在移動網(wǎng)絡(luò)的規(guī)劃設(shè)計、運維優(yōu)化過程中,嚴(yán)重依賴于自身對網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)以及終端用戶移動性和使用習(xí)慣的深刻理解。隨著這些網(wǎng)絡(luò)拓?fù)渥兊酶訌?fù)雜密集,工程師越來越難以預(yù)測和計算這些使用模型。為了解決這個問題,我們需要利用來自網(wǎng)絡(luò)不同區(qū)域的所有數(shù)據(jù):不僅僅是運維數(shù)據(jù),還有網(wǎng)絡(luò)其他領(lǐng)域的數(shù)據(jù)。這些數(shù)據(jù)可以被反饋到模型中,我們可以通過模型提取和運算獲得深入和可操作的見解,進一步優(yōu)化運維。
為此,運營商必須首先建立單個統(tǒng)一數(shù)據(jù)庫,該數(shù)據(jù)庫能夠記錄、處理和聚合源自基礎(chǔ)架構(gòu)以及網(wǎng)絡(luò)和IT應(yīng)用層的數(shù)據(jù)點,例如日志文件,網(wǎng)絡(luò)計數(shù)器,交易數(shù)據(jù)和網(wǎng)絡(luò)遙測數(shù)據(jù)。我們通過分析,掌握有關(guān)運營的各個方面并實現(xiàn)智能化,使其就像人類大腦一樣能夠從環(huán)境中學(xué)習(xí),以便在將來相同的運營環(huán)境中做出更好的決策。于此,機器學(xué)習(xí)在運營自動化中的關(guān)鍵作用逐漸清晰。
大量歷史運維數(shù)據(jù)結(jié)合有監(jiān)督的機器學(xué)習(xí)算法可以通過訓(xùn)練檢測到常見問題(例如,網(wǎng)絡(luò)性能降低)并觸發(fā)例行應(yīng)對機制(例如,網(wǎng)絡(luò)擴容)。算法的持續(xù)校正可以提高模式匹配的準(zhǔn)確性,也可以提高我們建立預(yù)測運維的信心。在預(yù)測性運維環(huán)境中,模型會提前數(shù)周、數(shù)天、數(shù)小時預(yù)測網(wǎng)絡(luò)或業(yè)務(wù)問題,從而讓我們有足夠的時間采取措施糾正。
無監(jiān)督學(xué)習(xí)算法在如何分類或標(biāo)注方面無相應(yīng)培訓(xùn),而是在預(yù)測結(jié)果之前,采用分組或集群來組織數(shù)據(jù)了解隱含的結(jié)構(gòu)和模式。強化學(xué)習(xí)是指機器學(xué)習(xí)算法執(zhí)行單個操作并接受操作評價,并根據(jù)反饋校準(zhǔn)執(zhí)行下一步動作。在以上三種機器學(xué)習(xí)范例中,有監(jiān)督的機器學(xué)習(xí)是最廣泛使用的技術(shù),它需要數(shù)據(jù)科學(xué)家來設(shè)置并不斷校準(zhǔn)這些算法。所有這三種機器學(xué)習(xí)技術(shù)都有望在實現(xiàn)全面運營自動化過程中發(fā)揮關(guān)鍵作用。
機器學(xué)習(xí)增強了擁有學(xué)習(xí)能力的分析模型,并提供了持續(xù)增強模型智能化的基本機制。例如,將基于機器學(xué)習(xí)的分析模型應(yīng)用于部分自動化流程,這就為模型校準(zhǔn)提供了極好的機會。使用監(jiān)督和增強的機器學(xué)習(xí)方法,操作人員可以調(diào)整分析模型,因為他們可以在執(zhí)行工作流時做出決策。
隨著我們在機器學(xué)習(xí)主導(dǎo)自動化的信心增長,我們就可以把無人監(jiān)督的機器學(xué)習(xí)模型逐步引入自動化工作流,將CSPs帶入AI主導(dǎo)的運營領(lǐng)域。無監(jiān)督學(xué)習(xí)模型的自學(xué)習(xí)和自校準(zhǔn)性質(zhì)不斷調(diào)整自身以提高操作決策的準(zhǔn)確性。
結(jié)論和建議
我們電信行業(yè)正處在一個關(guān)鍵時刻:電信運營商未來的成功將取決于他們能否成功轉(zhuǎn)型為數(shù)字化服務(wù)供應(yīng)商。為實現(xiàn)這一目標(biāo),運營商必須用自動化和智能化實現(xiàn)的自主運維模式取代具有高度重復(fù)性手工流程的煙囪式運維模式。運維人員必須給予支持,借助統(tǒng)一監(jiān)控,分析和機器學(xué)習(xí)支持的運維平臺創(chuàng)建并延續(xù)自動化運為流程。自主運維不僅具備支持現(xiàn)有物理基礎(chǔ)設(shè)施和服務(wù)的能力,而且隨著運營商部署NFV,IoT和5G等新技術(shù)、新業(yè)務(wù)不斷做出調(diào)整。
我們必須學(xué)習(xí)其他行業(yè),尤其是像谷歌和亞馬遜這樣成功的數(shù)字化企業(yè),去大膽接受那些對其成功有貢獻的想法。轉(zhuǎn)維運營不是一蹴而就的。運營商需要支持并實現(xiàn)持續(xù)的增量自動化和智能化,以獲得直接收益,同時支持更廣泛的轉(zhuǎn)型之旅。