應(yīng)用程序管理中的AI用例是怎樣的

時(shí)間：2020-04-28 10:06:01

關(guān)鍵字：應(yīng)用程序 AI 閾值 IO

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀] 概述基于人工智能的操作（AIOps）是人工智能和傳統(tǒng) AM/IM 操作的融合。與所有其他領(lǐng)域一樣，AI 將對(duì)運(yùn)營(yíng)管理產(chǎn)生重大影響。當(dāng) AI 的電源應(yīng)用于操作時(shí)，它將重新定義應(yīng)用程序

概述

基于人工智能的操作（AIOps）是人工智能和傳統(tǒng) AM/IM 操作的融合。與所有其他領(lǐng)域一樣，AI 將對(duì)運(yùn)營(yíng)管理產(chǎn)生重大影響。當(dāng) AI 的電源應(yīng)用于操作時(shí)，它將重新定義應(yīng)用程序和支持應(yīng)用程序/基礎(chǔ)結(jié)構(gòu)的管理方式。

多個(gè)應(yīng)用程序同時(shí)運(yùn)行可生成大量數(shù)據(jù)。數(shù)據(jù)從網(wǎng)絡(luò)層直接生成到 API 調(diào)用對(duì)最終用戶的延遲。用戶期望獲得應(yīng)用程序體驗(yàn)，而不會(huì)出現(xiàn)絲毫的性能中斷。

可以從堆棧的不同層獲取數(shù)據(jù)，這成為推斷見(jiàn)解的豐富來(lái)源。操作的復(fù)雜性導(dǎo)致了算法 IT 操作（AIOps）平臺(tái)的創(chuàng)建。平臺(tái)解決方案使用 AI 和 ML 從監(jiān)控數(shù)據(jù)中獲得見(jiàn)解，并通過(guò)增強(qiáng)人工決策來(lái)推動(dòng)自動(dòng)化解決方案。

重要用例和解決方案

應(yīng)用程序監(jiān)控

應(yīng)用程序指標(biāo)跟蹤響應(yīng)時(shí)間、請(qǐng)求/分鐘、時(shí)間刻度加班錯(cuò)誤率以及識(shí)別其行為趨勢(shì)等內(nèi)容。此外，還捕獲了 CPU 利用率、內(nèi)存利用率和負(fù)載平均值等基礎(chǔ)結(jié)構(gòu)指標(biāo)，以了解基礎(chǔ)結(jié)構(gòu)層如何支持以滿足應(yīng)用程序的不同負(fù)載條件。隨著應(yīng)用程序復(fù)雜性的增加，很難從預(yù)期模式檢測(cè)異常。如果被忽視，這些異?？赡軙?huì)導(dǎo)致潛在的中斷。

解決方案

可以在不同作用域（包括應(yīng)用程序級(jí)別、服務(wù)級(jí)別、事務(wù)級(jí)別和外部依賴項(xiàng)）分析和發(fā)現(xiàn)更改模式。首先，確定什么構(gòu)成正常的系統(tǒng)行為，然后辨別與正常系統(tǒng)行為的背離。AIOps 可以通過(guò)精確定位源來(lái)準(zhǔn)確突出顯示這些異常值，這有助于實(shí)時(shí)更好地實(shí)現(xiàn) RCA。此外，它還可以防止?jié)撛诘闹袛嗪突A(chǔ)結(jié)構(gòu)中斷。

事務(wù)跟蹤

業(yè)務(wù)事務(wù)范圍從點(diǎn)對(duì)點(diǎn)應(yīng)用程序連接之間的簡(jiǎn)單同步消息交換到更復(fù)雜的異步通信。要跟蹤事務(wù)，需要流一個(gè)復(fù)雜的跟蹤和監(jiān)視解決方案。長(zhǎng)時(shí)間運(yùn)行的多步異步事務(wù)傳輸 IT 基礎(chǔ)架構(gòu)，跨越多種技術(shù)、層等。

解決方案

復(fù)雜的交易經(jīng)常變形和拆分，從而通過(guò)標(biāo)記或統(tǒng)計(jì)采樣技術(shù)挑戰(zhàn)標(biāo)準(zhǔn)跟蹤和分析。通過(guò)檢查方法調(diào)用和單個(gè)消息有效負(fù)載內(nèi)容，關(guān)聯(lián)它們并呈現(xiàn)任何掛起或現(xiàn)有行為和性能中的違規(guī)的直觀可視化，將事務(wù)拼接在一起

本地化缺陷

管理軟件質(zhì)量是軟件開(kāi)發(fā)生命周期中的一大問(wèn)題進(jìn)入生產(chǎn)環(huán)境之前，識(shí)別和修復(fù)缺陷非常重要。生產(chǎn)中發(fā)現(xiàn)的任何缺陷都會(huì)產(chǎn)生巨大的成本。在此上下文中，查找 Bug 被認(rèn)為是最耗時(shí)且最具挑戰(zhàn)性的活動(dòng)，因?yàn)榭捎觅Y源有限。因此，在軟件工程中需要全/半自動(dòng)化技術(shù)來(lái)增強(qiáng)手動(dòng)調(diào)試過(guò)程。如果開(kāi)發(fā)人員獲取了一些提示，其中 Bug 可能被本地化，則調(diào)試將變得更加高效

解決方案

各種圖形挖掘算法/技術(shù)可用于本地化軟件缺陷。這些技術(shù)依賴于檢測(cè)故障和傳遞跟蹤之間的區(qū)分子圖。當(dāng)故障未以罕見(jiàn)的代碼模式顯示時(shí)，這些方法可能不適用。另一方面，許多方法側(cè)重于選擇可能有缺陷的程序組件（語(yǔ)句或謂詞），然后根據(jù)這些組件的可疑程度和執(zhí)行跟蹤上下文根據(jù)控制流圖對(duì)它們進(jìn)行排名

到達(dá)基線

性能基準(zhǔn)確定應(yīng)用程序和基礎(chǔ)結(jié)構(gòu)的組件在不同的負(fù)載條件下的性能。負(fù)載條件為”正?！?、”操作”、”準(zhǔn)”、”應(yīng)力”、”峰值”、”斷點(diǎn)”等，基線是一組規(guī)則或閾值，用于單個(gè)指標(biāo)的閾值，預(yù)計(jì)在上限和下限之間有所不同。傳統(tǒng)上，這些關(guān)聯(lián)是通過(guò)在收集在定義的時(shí)間間隔內(nèi)收集的性能數(shù)據(jù)并實(shí)時(shí)部署以在發(fā)生任何性能偏差時(shí)通知的性能數(shù)據(jù)后運(yùn)行機(jī)器學(xué)習(xí)算法來(lái)建模的。這種方法非常適合組件，但與現(xiàn)代開(kāi)發(fā)方法的”相關(guān)性”點(diǎn)無(wú)效。

解決方案：

超融合基礎(chǔ)架構(gòu)管理、域驅(qū)動(dòng)應(yīng)用程序開(kāi)發(fā)、分布式計(jì)算激增、多態(tài)編程和持久性的影響改變了軟件組件的開(kāi)發(fā)和部署方式。需要不斷在動(dòng)態(tài)擴(kuò)展/縮小的基礎(chǔ)基礎(chǔ)架構(gòu)之上部署軟件組件的頻繁更改。這種范式轉(zhuǎn)變強(qiáng)制模型構(gòu)建練習(xí)使用近實(shí)時(shí)數(shù)據(jù)，以保持與應(yīng)用程序和基礎(chǔ)結(jié)構(gòu)組件中的最新更改相關(guān)。這些模型需要使用實(shí)時(shí)源來(lái)學(xué)習(xí)新規(guī)則并不斷發(fā)展。

預(yù)測(cè)問(wèn)題

APM 中的智能警報(bào)是動(dòng)態(tài)檢測(cè)異常。要使警報(bào)具有智能性，該工具需要可配置以了解應(yīng)用程序的性質(zhì)及其行為，以便它可以檢測(cè)異常。定義靜態(tài)閾值很常見(jiàn);例如，如果此服務(wù)呼叫需要三秒鐘以上才能返回，則引發(fā)警報(bào)。但是，識(shí)別要監(jiān)視的重要指標(biāo)及其針對(duì)不同應(yīng)用程序使用模式的閾值是非常繁瑣的，因此需要智能方法來(lái)基準(zhǔn)應(yīng)用程序的正常性，并在出現(xiàn)異常行為時(shí)發(fā)出通知如今，工具足夠智能，可以了解應(yīng)用程序的行為并建立基線，允許您定義在分析基于基線的請(qǐng)求時(shí)要使用的策略，并在存在需要查看的實(shí)際問(wèn)題時(shí)智能警報(bào)。