應(yīng)用程序管理中的AI用例是怎樣的
概述
基于人工智能的操作 (AIOps) 是人工智能和傳統(tǒng) AM/IM 操作的融合。與所有其他領(lǐng)域一樣,AI 將對(duì)運(yùn)營(yíng)管理產(chǎn)生重大影響。當(dāng) AI 的電源應(yīng)用于操作時(shí),它將重新定義應(yīng)用程序和支持應(yīng)用程序/基礎(chǔ)結(jié)構(gòu)的管理方式。
多個(gè)應(yīng)用程序同時(shí)運(yùn)行可生成大量數(shù)據(jù)。數(shù)據(jù)從網(wǎng)絡(luò)層直接生成到 API 調(diào)用對(duì)最終用戶的延遲。用戶期望獲得應(yīng)用程序體驗(yàn),而不會(huì)出現(xiàn)絲毫的性能中斷。
可以從堆棧的不同層獲取數(shù)據(jù),這成為推斷見(jiàn)解的豐富來(lái)源。操作的復(fù)雜性導(dǎo)致了算法 IT 操作 (AIOps) 平臺(tái)的創(chuàng)建。平臺(tái)解決方案使用 AI 和 ML 從監(jiān)控數(shù)據(jù)中獲得見(jiàn)解,并通過(guò)增強(qiáng)人工決策來(lái)推動(dòng)自動(dòng)化解決方案。
重要用例和解決方案
應(yīng)用程序監(jiān)控
應(yīng)用程序指標(biāo)跟蹤響應(yīng)時(shí)間、請(qǐng)求/分鐘、時(shí)間刻度加班錯(cuò)誤率以及識(shí)別其行為趨勢(shì)等內(nèi)容。此外,還捕獲了 CPU 利用率、內(nèi)存利用率和負(fù)載平均值等基礎(chǔ)結(jié)構(gòu)指標(biāo),以了解基礎(chǔ)結(jié)構(gòu)層如何支持以滿足應(yīng)用程序的不同負(fù)載條件。隨著應(yīng)用程序復(fù)雜性的增加,很難從預(yù)期模式檢測(cè)異常。如果被忽視,這些異??赡軙?huì)導(dǎo)致潛在的中斷。
解決 方案
可以在不同作用域(包括應(yīng)用程序級(jí)別、服務(wù)級(jí)別、事務(wù)級(jí)別和外部依賴項(xiàng))分析和發(fā)現(xiàn)更改模式。首先,確定什么構(gòu)成正常的系統(tǒng)行為,然后辨別與正常系統(tǒng)行為的背離。AIOps 可以通過(guò)精確定位源來(lái)準(zhǔn)確突出顯示這些異常值,這有助于實(shí)時(shí)更好地實(shí)現(xiàn) RCA。此外,它還可以防止?jié)撛诘闹袛嗪突A(chǔ)結(jié)構(gòu)中斷。
事務(wù)跟蹤
業(yè)務(wù)事務(wù)范圍從點(diǎn)對(duì)點(diǎn)應(yīng)用程序連接之間的簡(jiǎn)單同步消息交換到更復(fù)雜的異步通信。要跟蹤事務(wù),需要流一個(gè)復(fù)雜的跟蹤和監(jiān)視解決方案。長(zhǎng)時(shí)間運(yùn)行的多步異步事務(wù)傳輸 IT 基礎(chǔ)架構(gòu),跨越多種技術(shù)、層等。
解決 方案
復(fù)雜的交易經(jīng)常變形和拆分,從而通過(guò)標(biāo)記或統(tǒng)計(jì)采樣技術(shù)挑戰(zhàn)標(biāo)準(zhǔn)跟蹤和分析。通過(guò)檢查方法調(diào)用和單個(gè)消息有效負(fù)載內(nèi)容,關(guān)聯(lián)它們并呈現(xiàn)任何掛起或現(xiàn)有行為和性能中的違規(guī)的直觀可視化,將事務(wù)拼接在一起
本地化缺陷
管理軟件質(zhì)量是軟件開(kāi)發(fā)生命周期中的一大問(wèn)題進(jìn)入生產(chǎn)環(huán)境之前,識(shí)別和修復(fù)缺陷非常重要。生產(chǎn)中發(fā)現(xiàn)的任何缺陷都會(huì)產(chǎn)生巨大的成本。在此上下文中,查找 Bug 被認(rèn)為是最耗時(shí)且最具挑戰(zhàn)性的活動(dòng),因?yàn)榭捎觅Y源有限。因此,在軟件工程中需要全/半自動(dòng)化技術(shù)來(lái)增強(qiáng)手動(dòng)調(diào)試過(guò)程。如果開(kāi)發(fā)人員獲取了一些提示,其中 Bug 可能被本地化,則調(diào)試將變得更加高效
解決 方案
各種圖形挖掘算法/技術(shù)可用于本地化軟件缺陷。這些技術(shù)依賴于檢測(cè)故障和傳遞跟蹤之間的區(qū)分子圖。當(dāng)故障未以罕見(jiàn)的代碼模式顯示時(shí),這些方法可能不適用。另一方面,許多方法側(cè)重于選擇可能有缺陷的程序組件(語(yǔ)句或謂詞),然后根據(jù)這些組件的可疑程度和執(zhí)行跟蹤上下文根據(jù)控制流圖對(duì)它們進(jìn)行排名
到達(dá)基線
性能基準(zhǔn)確定應(yīng)用程序和基礎(chǔ)結(jié)構(gòu)的組件在不同的負(fù)載條件下的性能。負(fù)載條件為”正?!?、”操作”、”準(zhǔn)”、”應(yīng)力”、”峰值”、”斷點(diǎn)”等,基線是一組規(guī)則或閾值,用于單個(gè)指標(biāo)的閾值,預(yù)計(jì)在上限和下限之間有所不同。傳統(tǒng)上,這些關(guān)聯(lián)是通過(guò)在收集在定義的時(shí)間間隔內(nèi)收集的性能數(shù)據(jù)并實(shí)時(shí)部署以在發(fā)生任何性能偏差時(shí)通知的性能數(shù)據(jù)后運(yùn)行機(jī)器學(xué)習(xí)算法來(lái)建模的。這種方法非常適合組件,但與現(xiàn)代開(kāi)發(fā)方法的”相關(guān)性”點(diǎn)無(wú)效。
解決 方案:
超融合基礎(chǔ)架構(gòu)管理、域驅(qū)動(dòng)應(yīng)用程序開(kāi)發(fā)、分布式計(jì)算激增、多態(tài)編程和持久性的影響改變了軟件組件的開(kāi)發(fā)和部署方式。需要不斷在動(dòng)態(tài)擴(kuò)展/縮小的基礎(chǔ)基礎(chǔ)架構(gòu)之上部署軟件組件的頻繁更改。這種范式轉(zhuǎn)變強(qiáng)制模型構(gòu)建練習(xí)使用近實(shí)時(shí)數(shù)據(jù),以保持與應(yīng)用程序和基礎(chǔ)結(jié)構(gòu)組件中的最新更改相關(guān)。這些模型需要使用實(shí)時(shí)源來(lái)學(xué)習(xí)新規(guī)則并不斷發(fā)展。
預(yù)測(cè)問(wèn)題
APM 中的智能警報(bào)是動(dòng)態(tài)檢測(cè)異常。要使警報(bào)具有智能性,該工具需要可配置以了解應(yīng)用程序的性質(zhì)及其行為,以便它可以檢測(cè)異常。定義靜態(tài)閾值很常見(jiàn);例如,如果此服務(wù)呼叫需要三秒鐘以上才能返回,則引發(fā)警報(bào)。但是,識(shí)別要監(jiān)視的重要指標(biāo)及其針對(duì)不同應(yīng)用程序使用模式的閾值是非常繁瑣的,因此需要智能方法來(lái)基準(zhǔn)應(yīng)用程序的正常性,并在出現(xiàn)異常行為時(shí)發(fā)出通知如今,工具足夠智能,可以了解應(yīng)用程序的行為并建立基線,允許您定義在分析基于基線的請(qǐng)求時(shí)要使用的策略,并在存在需要查看的實(shí)際問(wèn)題時(shí)智能警報(bào)。