專訪必示科技CEO劉大鵬:智能運維是不可避免的大趨勢
記者(公眾號:記者)按:越是傳統(tǒng)的行業(yè),在被人工智能改造時,所迸發(fā)出來的潛力就越大。從某種程度上看,這句話是完全成立的,經(jīng)過多輪新技術(shù)仍舊沒有完全進(jìn)化的行業(yè),往往有著很堅固的改造壁壘,相對應(yīng)的,一旦遇到適用于該行業(yè)的新技術(shù),技術(shù)斷代所積累的潛力也將一并爆發(fā)。伴隨最初的IT而興起的運維行業(yè),似乎正打開智能化的大門。
智能運維行業(yè)的現(xiàn)狀是——搞機(jī)器學(xué)習(xí)的人很難迅速了解智能運維的知識和場景,比如各類監(jiān)控數(shù)據(jù),要梳理很長時間才能理解;搞運維的人又很難把機(jī)器學(xué)習(xí)吃透,兩者之間存在一個巨大的鴻溝。
純粹從人工智能算法方向切入的智能運維產(chǎn)品的提供商在國內(nèi)還屬于少數(shù)派,新技術(shù)的誕生期走的總是“高大上”路線,運維這一傳統(tǒng)行業(yè)還未到廣泛擁抱人工智能的爆發(fā)期,但先行者已經(jīng)著手。
近日,必示科技發(fā)布了國內(nèi)首款多場景、可編排智能運維平臺——必示智能運維平臺。今年年初,必示科技完成數(shù)千萬人民幣A輪融資,順為資本領(lǐng)投,老股東明勢資本跟投;時隔數(shù)月,必示在6月又完成了由高榕資本領(lǐng)投,東方富海以及老股東順為資本、明勢資本跟投的數(shù)千萬人民幣的A+輪融資。
眾多一線投資人的態(tài)度顯示了資本對于必示科技以及智能運維賽道的看好,智能運維成為當(dāng)前人工智能落地的又一希望之地。關(guān)于智能運維以及必示科技的發(fā)展,記者就此話題采訪了必示科技CEO劉大鵬。
運維發(fā)展的三個階段對于任何一家現(xiàn)代企業(yè),運維都是必不可少的一部分,甚至小到修電腦(服務(wù)器),大到支撐千萬DAU應(yīng)用、十萬級服務(wù)器的業(yè)務(wù)穩(wěn)定,都是運維的工作范疇。
運維行業(yè)的整體發(fā)展大致經(jīng)歷三個階段:
手工運維:初級運維方法,所有決策和操作都由人工完成,低效、重復(fù)、易出錯;
自動化運維:通過腳本化提高操作效率,但仍需人工分析海量數(shù)據(jù),決策速度慢、不準(zhǔn)確、耗人力;
智能運維 AIOps:利用AI算法分析海量運維數(shù)據(jù),自動、準(zhǔn)確發(fā)現(xiàn)和定位問題,從決策層面進(jìn)一步提高運維效率。
劉大鵬表示,運維的確是一個很傳統(tǒng)的行業(yè),所有的企業(yè)只要有IT的軟件和硬件,就會有運維需求,關(guān)于智能運維的討論逐漸火熱,實際上也是因為運維行業(yè)隨著底層IT基礎(chǔ)架構(gòu)、軟件規(guī)模量級的提高,原來的運維方式越來越難以支撐,所以開始出現(xiàn)智能運維的概念。
從2016年開始,行業(yè)開始探索智能運維,運維行業(yè)的數(shù)據(jù)分析起步較早,但當(dāng)時還沒有嚴(yán)格意義上智能運維的概念,隨著人工智能被行業(yè)接受,Gartner提出AIOps后智能運維成為行業(yè)統(tǒng)一術(shù)語。
運維監(jiān)控的項目繁多,監(jiān)控難以精準(zhǔn)。另外發(fā)生事故后,如何定位問題,上萬臺服務(wù)器,幾千個軟件模塊,互相之間的大量訪問數(shù)據(jù),管理員越來越難以做到事事細(xì)化。
舉例來看,監(jiān)控一家企業(yè)底層IT軟件、硬件狀態(tài),每天需要收集監(jiān)控數(shù)據(jù),一家大型一點的金融機(jī)構(gòu)基本上會有10個TB左右數(shù)據(jù),這僅僅是一天,如此量級的數(shù)據(jù)人力已經(jīng)很難對數(shù)據(jù)本身做細(xì)致分析,時效性和準(zhǔn)確性都不足以支撐。有的時候甚至可能系統(tǒng)出了問題,但運維人員還沒有反應(yīng)過來。
因此,企業(yè)使用人工智能進(jìn)行IT運維(AIOps),以增強(qiáng)和偶爾地替代傳統(tǒng)的應(yīng)用程序性能監(jiān)視(APM)和網(wǎng)絡(luò)性能監(jiān)視和診斷工具(NPMD),成為新嘗試。有數(shù)據(jù)顯示,全球APM市場規(guī)模大約在60億美元左右,預(yù)計在五年內(nèi)達(dá)到90億美元。Gartner報告顯示,2019年NPMD預(yù)估的市場規(guī)模為22億美元,復(fù)合年增長率為1.8%。
但參考AIOps的市場規(guī)模,并不是和這兩部分工具重合,而是要看整個傳統(tǒng)運維市場,以及人工智能應(yīng)用的市場價值,難以準(zhǔn)確測算。
“一般不太有人會選運維行業(yè)作為創(chuàng)業(yè)方向,聽到之后就覺得很苦、很累,甚至很多外部的人可能會聽到運維覺得這個屬于技術(shù)鏈條比較偏下游的,大家會有這樣的一些誤解”,劉大鵬談到。
必示科技之所以選擇做AIOps與創(chuàng)始團(tuán)隊背景有很大關(guān)系,必示科技主要創(chuàng)始團(tuán)隊均來自于清華智能運維實驗室,從學(xué)術(shù)到實踐,是技術(shù)演進(jìn)的自然過程,據(jù)了解,必示有10位智能運維方向的博士,十幾位經(jīng)驗在10年以上行業(yè)資深專家,有50%的成員來自清華大學(xué)。
AIOps的催化劑運維行業(yè)如此之“固執(zhí)”,為何現(xiàn)在是運維行業(yè)智能化的契機(jī)?
以銀行系統(tǒng)為例,劉大鵬表示,首先從外部環(huán)境角度,用戶量、交易量、業(yè)務(wù)種類、還有用戶體驗要求的提高,導(dǎo)致銀行內(nèi)部的系統(tǒng)必須要變得越來越龐大、靈活,以支撐外部環(huán)境的變化。
第二個方面,隨著最近幾年銀行,包括其他行業(yè)如運營商、電網(wǎng)等,IT監(jiān)控越來越普及,相比之前,監(jiān)控系統(tǒng)還沒做得特別好,數(shù)據(jù)量也少,做運維沒有更好的方法。
監(jiān)控系統(tǒng)越來越完善之后,數(shù)據(jù)量很大,但是數(shù)據(jù)反而成為無法處理的新問題,企業(yè)思考的維度自然演化——怎么讓花費大量資源建設(shè)的監(jiān)控系統(tǒng),所收集的大量數(shù)據(jù)真正發(fā)揮價值?
自動分析數(shù)據(jù)的需求涌現(xiàn),自然而然就演進(jìn)出了智能運維行業(yè)。
劉大鵬以應(yīng)急處理為例,當(dāng)金融企業(yè)的內(nèi)部系統(tǒng)出現(xiàn)問題,比如用戶交易失敗,或者用戶交易開始變慢等告警情況。
第一步,針對這家金融機(jī)構(gòu)的業(yè)務(wù)系統(tǒng)大量交易指標(biāo)做檢測,包括不同系統(tǒng)的交易量、響應(yīng)時間、用戶的成功率等指標(biāo)??雌饋碇挥袔讉€指標(biāo),但實際上銀行的業(yè)務(wù)系統(tǒng)非常多,每個不同的交易類型展開后就是成千上萬個,再乘以這些指標(biāo)種類,數(shù)據(jù)量異常巨大,而且這些指標(biāo)會隨著業(yè)務(wù)而變化。
在這個階段,靠人力制定一個簡單規(guī)則無法適配幾萬種形態(tài)各異的指標(biāo),必示科技在業(yè)內(nèi)第一個推出產(chǎn)品,針對時序數(shù)據(jù)做準(zhǔn)確的檢測,而且可以適配金融行業(yè)內(nèi)常見的各種情況,檢測準(zhǔn)確率基本能達(dá)到90%以上。
第二步,傳統(tǒng)業(yè)務(wù)報警之后,運維人員會收到一條短信,但也僅此而已,沒有任何額外信息。業(yè)務(wù)報警時經(jīng)常伴隨的情況是,網(wǎng)絡(luò),服務(wù)器,數(shù)據(jù)庫,應(yīng)用系統(tǒng)等各條線,所有團(tuán)隊都要開始排查與自己相關(guān)的部分。每條線排查量很大,而且沒有任何指向性,全憑經(jīng)驗,短則幾十分鐘,長則十?dāng)?shù)小時或幾天。
“解決問題很快,但是找原因很慢。這個過程面對的是海量數(shù)據(jù),能不能經(jīng)過一些算法處理,把最有嫌疑的數(shù)據(jù)量找出來,管理員會更有聚焦性,再結(jié)合領(lǐng)域知識,可能會很快定位一些問題。出現(xiàn)問題之后的自動定位和推薦方法,這也是智能運維的典型場景”,劉大鵬介紹道。
智能運維的錯位競爭各行各業(yè)的運維都有一定的基礎(chǔ),必示科技補(bǔ)足的是運維行業(yè)的數(shù)據(jù)分析能力
必示科技的前身,清華智能運維實驗室從2012年即開始研究智能運維課題,彼時即便像BAT尚且沒有智能運維的理念,更多的是單一數(shù)據(jù)的規(guī)則化分析,而不是系統(tǒng)化把運維數(shù)據(jù)分析單獨抽象出一層做研究。
“運維場景很多,很難去單點的做。而且涉及到很多算法和領(lǐng)域知識的結(jié)合。傳統(tǒng)運維行業(yè)中的人員構(gòu)成基本上百分之百都是運維工程師,軟件工程師。這些人都很厲害,他們能駕馭很大型的系統(tǒng),做很強(qiáng)壯的海量數(shù)據(jù)的監(jiān)控和收集。但是有一個問題,這類工程型專家的知識庫和技能集和智能運維所要求的技能是不一致的”。
必示智能運維平臺
這種困難也體現(xiàn)在算法層面,難點主要有二,第一是對數(shù)據(jù)分析型問題的定義,問題的拆解、梳理、定義;第二是針對具體問題的算法設(shè)計。
在一個未知開放的環(huán)境下,定義問題是困難的第一步,算法工程師既要對運維有很深的了解,同時又對算法能力有廣泛積累,才能做好架構(gòu)的拆解,問題的梳理和定義。
大量的機(jī)器學(xué)習(xí)算法在提出時,并不是針對運維場景,這些開源算法的假設(shè)并不和實際運維問題相符,實際效果也并不好,運維算法研究實際上是以開源算法為起點,結(jié)合實際運維問題和數(shù)據(jù)的特點,進(jìn)行不斷的算法改進(jìn)和方案組合的創(chuàng)新過程。
劉大鵬解釋道,智能運維本質(zhì)是數(shù)據(jù)分析,從業(yè)人員至少要知道常見的數(shù)據(jù)分析方法。比如說關(guān)于文本、關(guān)于時序數(shù)據(jù)等,同時還要熟悉運維場景。運維行業(yè)有很高的領(lǐng)域知識門檻,純做AI的人創(chuàng)業(yè)做一家智能運維公司,基本不存在這種情況。
“我們要找到運維行業(yè)中,現(xiàn)有AI技術(shù)能力范圍內(nèi)可以解決的問題,它一定是定義的很清楚,它的數(shù)據(jù)是充足的,運維中的問題拆得非常非常細(xì),故障定位我們可能會拆成10多個場景,每一個場景都是相對來說比較具體的”,劉大鵬指出了運維行業(yè)的目前發(fā)力方向。
另外,劉大鵬也清晰的指出,并不是所有運維問題都適合用AI解決,某些問題與其花費精力用AI算法去推斷,不如把數(shù)據(jù)監(jiān)控、自動化系統(tǒng)完善,解決問題更簡單高效。