專訪必示科技CEO劉大鵬:智能運(yùn)維是不可避免的大趨勢(shì)
記者(公眾號(hào):記者)按:越是傳統(tǒng)的行業(yè),在被人工智能改造時(shí),所迸發(fā)出來的潛力就越大。從某種程度上看,這句話是完全成立的,經(jīng)過多輪新技術(shù)仍舊沒有完全進(jìn)化的行業(yè),往往有著很堅(jiān)固的改造壁壘,相對(duì)應(yīng)的,一旦遇到適用于該行業(yè)的新技術(shù),技術(shù)斷代所積累的潛力也將一并爆發(fā)。伴隨最初的IT而興起的運(yùn)維行業(yè),似乎正打開智能化的大門。
智能運(yùn)維行業(yè)的現(xiàn)狀是——搞機(jī)器學(xué)習(xí)的人很難迅速了解智能運(yùn)維的知識(shí)和場(chǎng)景,比如各類監(jiān)控?cái)?shù)據(jù),要梳理很長(zhǎng)時(shí)間才能理解;搞運(yùn)維的人又很難把機(jī)器學(xué)習(xí)吃透,兩者之間存在一個(gè)巨大的鴻溝。
純粹從人工智能算法方向切入的智能運(yùn)維產(chǎn)品的提供商在國(guó)內(nèi)還屬于少數(shù)派,新技術(shù)的誕生期走的總是“高大上”路線,運(yùn)維這一傳統(tǒng)行業(yè)還未到廣泛擁抱人工智能的爆發(fā)期,但先行者已經(jīng)著手。
近日,必示科技發(fā)布了國(guó)內(nèi)首款多場(chǎng)景、可編排智能運(yùn)維平臺(tái)——必示智能運(yùn)維平臺(tái)。今年年初,必示科技完成數(shù)千萬人民幣A輪融資,順為資本領(lǐng)投,老股東明勢(shì)資本跟投;時(shí)隔數(shù)月,必示在6月又完成了由高榕資本領(lǐng)投,東方富海以及老股東順為資本、明勢(shì)資本跟投的數(shù)千萬人民幣的A+輪融資。
眾多一線投資人的態(tài)度顯示了資本對(duì)于必示科技以及智能運(yùn)維賽道的看好,智能運(yùn)維成為當(dāng)前人工智能落地的又一希望之地。關(guān)于智能運(yùn)維以及必示科技的發(fā)展,記者就此話題采訪了必示科技CEO劉大鵬。
運(yùn)維發(fā)展的三個(gè)階段對(duì)于任何一家現(xiàn)代企業(yè),運(yùn)維都是必不可少的一部分,甚至小到修電腦(服務(wù)器),大到支撐千萬DAU應(yīng)用、十萬級(jí)服務(wù)器的業(yè)務(wù)穩(wěn)定,都是運(yùn)維的工作范疇。
運(yùn)維行業(yè)的整體發(fā)展大致經(jīng)歷三個(gè)階段:
手工運(yùn)維:初級(jí)運(yùn)維方法,所有決策和操作都由人工完成,低效、重復(fù)、易出錯(cuò);
自動(dòng)化運(yùn)維:通過腳本化提高操作效率,但仍需人工分析海量數(shù)據(jù),決策速度慢、不準(zhǔn)確、耗人力;
智能運(yùn)維 AIOps:利用AI算法分析海量運(yùn)維數(shù)據(jù),自動(dòng)、準(zhǔn)確發(fā)現(xiàn)和定位問題,從決策層面進(jìn)一步提高運(yùn)維效率。
劉大鵬表示,運(yùn)維的確是一個(gè)很傳統(tǒng)的行業(yè),所有的企業(yè)只要有IT的軟件和硬件,就會(huì)有運(yùn)維需求,關(guān)于智能運(yùn)維的討論逐漸火熱,實(shí)際上也是因?yàn)檫\(yùn)維行業(yè)隨著底層IT基礎(chǔ)架構(gòu)、軟件規(guī)模量級(jí)的提高,原來的運(yùn)維方式越來越難以支撐,所以開始出現(xiàn)智能運(yùn)維的概念。
從2016年開始,行業(yè)開始探索智能運(yùn)維,運(yùn)維行業(yè)的數(shù)據(jù)分析起步較早,但當(dāng)時(shí)還沒有嚴(yán)格意義上智能運(yùn)維的概念,隨著人工智能被行業(yè)接受,Gartner提出AIOps后智能運(yùn)維成為行業(yè)統(tǒng)一術(shù)語(yǔ)。
運(yùn)維監(jiān)控的項(xiàng)目繁多,監(jiān)控難以精準(zhǔn)。另外發(fā)生事故后,如何定位問題,上萬臺(tái)服務(wù)器,幾千個(gè)軟件模塊,互相之間的大量訪問數(shù)據(jù),管理員越來越難以做到事事細(xì)化。
舉例來看,監(jiān)控一家企業(yè)底層IT軟件、硬件狀態(tài),每天需要收集監(jiān)控?cái)?shù)據(jù),一家大型一點(diǎn)的金融機(jī)構(gòu)基本上會(huì)有10個(gè)TB左右數(shù)據(jù),這僅僅是一天,如此量級(jí)的數(shù)據(jù)人力已經(jīng)很難對(duì)數(shù)據(jù)本身做細(xì)致分析,時(shí)效性和準(zhǔn)確性都不足以支撐。有的時(shí)候甚至可能系統(tǒng)出了問題,但運(yùn)維人員還沒有反應(yīng)過來。
因此,企業(yè)使用人工智能進(jìn)行IT運(yùn)維(AIOps),以增強(qiáng)和偶爾地替代傳統(tǒng)的應(yīng)用程序性能監(jiān)視(APM)和網(wǎng)絡(luò)性能監(jiān)視和診斷工具(NPMD),成為新嘗試。有數(shù)據(jù)顯示,全球APM市場(chǎng)規(guī)模大約在60億美元左右,預(yù)計(jì)在五年內(nèi)達(dá)到90億美元。Gartner報(bào)告顯示,2019年NPMD預(yù)估的市場(chǎng)規(guī)模為22億美元,復(fù)合年增長(zhǎng)率為1.8%。
但參考AIOps的市場(chǎng)規(guī)模,并不是和這兩部分工具重合,而是要看整個(gè)傳統(tǒng)運(yùn)維市場(chǎng),以及人工智能應(yīng)用的市場(chǎng)價(jià)值,難以準(zhǔn)確測(cè)算。
“一般不太有人會(huì)選運(yùn)維行業(yè)作為創(chuàng)業(yè)方向,聽到之后就覺得很苦、很累,甚至很多外部的人可能會(huì)聽到運(yùn)維覺得這個(gè)屬于技術(shù)鏈條比較偏下游的,大家會(huì)有這樣的一些誤解”,劉大鵬談到。
必示科技之所以選擇做AIOps與創(chuàng)始團(tuán)隊(duì)背景有很大關(guān)系,必示科技主要?jiǎng)?chuàng)始團(tuán)隊(duì)均來自于清華智能運(yùn)維實(shí)驗(yàn)室,從學(xué)術(shù)到實(shí)踐,是技術(shù)演進(jìn)的自然過程,據(jù)了解,必示有10位智能運(yùn)維方向的博士,十幾位經(jīng)驗(yàn)在10年以上行業(yè)資深專家,有50%的成員來自清華大學(xué)。
AIOps的催化劑運(yùn)維行業(yè)如此之“固執(zhí)”,為何現(xiàn)在是運(yùn)維行業(yè)智能化的契機(jī)?
以銀行系統(tǒng)為例,劉大鵬表示,首先從外部環(huán)境角度,用戶量、交易量、業(yè)務(wù)種類、還有用戶體驗(yàn)要求的提高,導(dǎo)致銀行內(nèi)部的系統(tǒng)必須要變得越來越龐大、靈活,以支撐外部環(huán)境的變化。
第二個(gè)方面,隨著最近幾年銀行,包括其他行業(yè)如運(yùn)營(yíng)商、電網(wǎng)等,IT監(jiān)控越來越普及,相比之前,監(jiān)控系統(tǒng)還沒做得特別好,數(shù)據(jù)量也少,做運(yùn)維沒有更好的方法。
監(jiān)控系統(tǒng)越來越完善之后,數(shù)據(jù)量很大,但是數(shù)據(jù)反而成為無法處理的新問題,企業(yè)思考的維度自然演化——怎么讓花費(fèi)大量資源建設(shè)的監(jiān)控系統(tǒng),所收集的大量數(shù)據(jù)真正發(fā)揮價(jià)值?
自動(dòng)分析數(shù)據(jù)的需求涌現(xiàn),自然而然就演進(jìn)出了智能運(yùn)維行業(yè)。
劉大鵬以應(yīng)急處理為例,當(dāng)金融企業(yè)的內(nèi)部系統(tǒng)出現(xiàn)問題,比如用戶交易失敗,或者用戶交易開始變慢等告警情況。
第一步,針對(duì)這家金融機(jī)構(gòu)的業(yè)務(wù)系統(tǒng)大量交易指標(biāo)做檢測(cè),包括不同系統(tǒng)的交易量、響應(yīng)時(shí)間、用戶的成功率等指標(biāo)??雌饋碇挥袔讉€(gè)指標(biāo),但實(shí)際上銀行的業(yè)務(wù)系統(tǒng)非常多,每個(gè)不同的交易類型展開后就是成千上萬個(gè),再乘以這些指標(biāo)種類,數(shù)據(jù)量異常巨大,而且這些指標(biāo)會(huì)隨著業(yè)務(wù)而變化。
在這個(gè)階段,靠人力制定一個(gè)簡(jiǎn)單規(guī)則無法適配幾萬種形態(tài)各異的指標(biāo),必示科技在業(yè)內(nèi)第一個(gè)推出產(chǎn)品,針對(duì)時(shí)序數(shù)據(jù)做準(zhǔn)確的檢測(cè),而且可以適配金融行業(yè)內(nèi)常見的各種情況,檢測(cè)準(zhǔn)確率基本能達(dá)到90%以上。
第二步,傳統(tǒng)業(yè)務(wù)報(bào)警之后,運(yùn)維人員會(huì)收到一條短信,但也僅此而已,沒有任何額外信息。業(yè)務(wù)報(bào)警時(shí)經(jīng)常伴隨的情況是,網(wǎng)絡(luò),服務(wù)器,數(shù)據(jù)庫(kù),應(yīng)用系統(tǒng)等各條線,所有團(tuán)隊(duì)都要開始排查與自己相關(guān)的部分。每條線排查量很大,而且沒有任何指向性,全憑經(jīng)驗(yàn),短則幾十分鐘,長(zhǎng)則十?dāng)?shù)小時(shí)或幾天。
“解決問題很快,但是找原因很慢。這個(gè)過程面對(duì)的是海量數(shù)據(jù),能不能經(jīng)過一些算法處理,把最有嫌疑的數(shù)據(jù)量找出來,管理員會(huì)更有聚焦性,再結(jié)合領(lǐng)域知識(shí),可能會(huì)很快定位一些問題。出現(xiàn)問題之后的自動(dòng)定位和推薦方法,這也是智能運(yùn)維的典型場(chǎng)景”,劉大鵬介紹道。
智能運(yùn)維的錯(cuò)位競(jìng)爭(zhēng)各行各業(yè)的運(yùn)維都有一定的基礎(chǔ),必示科技補(bǔ)足的是運(yùn)維行業(yè)的數(shù)據(jù)分析能力
必示科技的前身,清華智能運(yùn)維實(shí)驗(yàn)室從2012年即開始研究智能運(yùn)維課題,彼時(shí)即便像BAT尚且沒有智能運(yùn)維的理念,更多的是單一數(shù)據(jù)的規(guī)則化分析,而不是系統(tǒng)化把運(yùn)維數(shù)據(jù)分析單獨(dú)抽象出一層做研究。
“運(yùn)維場(chǎng)景很多,很難去單點(diǎn)的做。而且涉及到很多算法和領(lǐng)域知識(shí)的結(jié)合。傳統(tǒng)運(yùn)維行業(yè)中的人員構(gòu)成基本上百分之百都是運(yùn)維工程師,軟件工程師。這些人都很厲害,他們能駕馭很大型的系統(tǒng),做很強(qiáng)壯的海量數(shù)據(jù)的監(jiān)控和收集。但是有一個(gè)問題,這類工程型專家的知識(shí)庫(kù)和技能集和智能運(yùn)維所要求的技能是不一致的”。
必示智能運(yùn)維平臺(tái)
這種困難也體現(xiàn)在算法層面,難點(diǎn)主要有二,第一是對(duì)數(shù)據(jù)分析型問題的定義,問題的拆解、梳理、定義;第二是針對(duì)具體問題的算法設(shè)計(jì)。
在一個(gè)未知開放的環(huán)境下,定義問題是困難的第一步,算法工程師既要對(duì)運(yùn)維有很深的了解,同時(shí)又對(duì)算法能力有廣泛積累,才能做好架構(gòu)的拆解,問題的梳理和定義。
大量的機(jī)器學(xué)習(xí)算法在提出時(shí),并不是針對(duì)運(yùn)維場(chǎng)景,這些開源算法的假設(shè)并不和實(shí)際運(yùn)維問題相符,實(shí)際效果也并不好,運(yùn)維算法研究實(shí)際上是以開源算法為起點(diǎn),結(jié)合實(shí)際運(yùn)維問題和數(shù)據(jù)的特點(diǎn),進(jìn)行不斷的算法改進(jìn)和方案組合的創(chuàng)新過程。
劉大鵬解釋道,智能運(yùn)維本質(zhì)是數(shù)據(jù)分析,從業(yè)人員至少要知道常見的數(shù)據(jù)分析方法。比如說關(guān)于文本、關(guān)于時(shí)序數(shù)據(jù)等,同時(shí)還要熟悉運(yùn)維場(chǎng)景。運(yùn)維行業(yè)有很高的領(lǐng)域知識(shí)門檻,純做AI的人創(chuàng)業(yè)做一家智能運(yùn)維公司,基本不存在這種情況。
“我們要找到運(yùn)維行業(yè)中,現(xiàn)有AI技術(shù)能力范圍內(nèi)可以解決的問題,它一定是定義的很清楚,它的數(shù)據(jù)是充足的,運(yùn)維中的問題拆得非常非常細(xì),故障定位我們可能會(huì)拆成10多個(gè)場(chǎng)景,每一個(gè)場(chǎng)景都是相對(duì)來說比較具體的”,劉大鵬指出了運(yùn)維行業(yè)的目前發(fā)力方向。
另外,劉大鵬也清晰的指出,并不是所有運(yùn)維問題都適合用AI解決,某些問題與其花費(fèi)精力用AI算法去推斷,不如把數(shù)據(jù)監(jiān)控、自動(dòng)化系統(tǒng)完善,解決問題更簡(jiǎn)單高效。