當(dāng)前位置:首頁 > 芯聞號 > 美通社全球TMT
[導(dǎo)讀] (全球TMT2022年4月27日訊)浪潮信息打造智能化的物理基礎(chǔ)設(shè)施管理平臺(ISPIM)。浪潮信息物理基礎(chǔ)設(shè)施管理平臺ISPIM,通過對數(shù)據(jù)中心IT設(shè)備的7*24h納管監(jiān)控,實現(xiàn)在異常檢測、故障診斷、故障預(yù)測、故障自愈、性能預(yù)測等多維度的智能化運維。 異常檢測 ...

(全球TMT2022年4月27日訊)浪潮信息打造智能化的物理基礎(chǔ)設(shè)施管理平臺(ISPIM)。浪潮信息物理基礎(chǔ)設(shè)施管理平臺ISPIM,通過對數(shù)據(jù)中心IT設(shè)備的7*24h納管監(jiān)控,實現(xiàn)在異常檢測、故障診斷、故障預(yù)測、故障自愈、性能預(yù)測等多維度的智能化運維。

浪潮信息打造智能化的物理基礎(chǔ)設(shè)施管理平臺
  • 異常檢測

服務(wù)器運維中,最根本的是對于異常的檢測,常見的是對狀態(tài)指標(biāo)、性能指標(biāo)和日志數(shù)據(jù)三大數(shù)據(jù)的檢測。

狀態(tài)指標(biāo):當(dāng)服務(wù)器的狀態(tài)出現(xiàn)異常時,浪潮信息ISPIM管理軟件通過主/被動方式對服務(wù)器的異常進行聚合,防止重復(fù)告警和誤報,同時對同時刻多告警進行根因定位,防止告警風(fēng)暴,產(chǎn)生告警麻痹。

性能指標(biāo):在性能指標(biāo)檢測方面,傳統(tǒng)手段是設(shè)置閾值,但常常因為某一時刻產(chǎn)生噪點數(shù)據(jù)而發(fā)生誤報,通過重復(fù)次數(shù),閾值抖動范圍和自學(xué)習(xí)數(shù)據(jù)密度分布等方案,便能夠解決噪點數(shù)據(jù)產(chǎn)生的99%的告警誤報;但面對周期性變化的數(shù)據(jù)卻無法進行動態(tài)調(diào)整,也會產(chǎn)生誤報的情況,大大降低告警的準(zhǔn)確性。浪潮信息ISPIM管理軟件通過AI優(yōu)化,針對性能數(shù)據(jù)進行時域、頻域、能量等變化進行動態(tài)分析,采用LSTM和隨機森林兩種方案進行預(yù)測,告警準(zhǔn)確性達到98%。

日志數(shù)據(jù):日志一般是半結(jié)構(gòu)化的數(shù)據(jù),根據(jù)日志級別產(chǎn)生告警,準(zhǔn)確性不夠并且只能檢測到已知和確定模式的異常。浪潮信息ISPIM管理軟件擁有4000+運維專家資源庫,幫助實現(xiàn)服務(wù)器故障快速診斷,同時在日志智能故障診斷方面,會將采集的日志進行重新編碼,不斷加深對深度學(xué)習(xí)、LSTM等算法的研究、實踐應(yīng)用,實現(xiàn)從多個維度對服務(wù)器異常進行分析,異常檢測準(zhǔn)確率高達99%。

  • 故障診斷

為進一步提高運維效率,浪潮信息ISPIM管理軟件除了對日志的故障診斷之外,還會對系統(tǒng)宕機后的數(shù)據(jù)進行深入的剖析,便于問題快速定位,提高效率。

通過對采集的海量數(shù)據(jù)進行分析,浪潮發(fā)現(xiàn)服務(wù)器的宕機通常是發(fā)生了CPU MCE(Machine Check Exception)故障,MCE來源一般來說有兩種,一種是CPU本身故障,一種是來自CPU外部的部件。浪潮信息ISPIM管理軟件通過帶外收集服務(wù)器CPU寄存器數(shù)據(jù),基于MCA(Machine Check Architecture)技術(shù)架構(gòu),通過定位CPU觸發(fā)源、分析MC Bank、解析CSR、MSR寄存器,實現(xiàn)故障原因的確認以及故障部件的精準(zhǔn)定位,并根據(jù)浪潮信息專家經(jīng)驗庫對故障問題給出專業(yè)的解決方案,從而提升運維效率。

  • 故障預(yù)測

據(jù)統(tǒng)計顯示,在數(shù)據(jù)中心中由內(nèi)存、硬盤造成的故障占比超過50%以上,其主要原因在于硬盤、內(nèi)存保有量較大,生命周期相對較短,使用率較高等。當(dāng)內(nèi)存或硬盤產(chǎn)生故障時,極容易發(fā)生嚴重宕機事故。

對于內(nèi)存而言,內(nèi)存產(chǎn)生的CE(可糾正錯誤),可以通過ECC(Error Correcting Code)機制進行糾正,但是頻繁的CE往往會產(chǎn)生UCE(Unchecked Error),一旦產(chǎn)生UCE,往往會導(dǎo)致系統(tǒng)宕機。因此,預(yù)測內(nèi)存故障即可轉(zhuǎn)化為預(yù)測UCE,浪潮信息ISPIM管理軟件對內(nèi)存CE,通過多個維度統(tǒng)計分析,從CE總頻率、內(nèi)存固定物理地址CE頻率閾值、固定Cell CE頻率閾值、CE在Column分布范圍及頻率閾值等維度統(tǒng)計,獲取UCE與CE關(guān)聯(lián)關(guān)系,從而預(yù)測UCE。

而對于硬盤,在數(shù)據(jù)中心中大多存儲陣列會采用一些冗余機制,但是這只能保證有限硬盤失效的場景,一旦故障盤數(shù)量超過RAID冗余的極限之后,很可能造成系統(tǒng)宕機或者數(shù)據(jù)丟失的風(fēng)險。浪潮信息ISPIM管理軟件通過對SMART(Self-Monitoring Analysis and Reporting Technology)標(biāo)準(zhǔn)進行分析,獲取硬盤故障預(yù)測的關(guān)鍵數(shù)據(jù)特征,基于模型算法進行訓(xùn)練,優(yōu)化模型算法,輸出為推理算法模型,通過SMART指標(biāo)及硬盤運行日志,預(yù)測風(fēng)險盤。同時當(dāng)硬盤預(yù)測達到換盤指標(biāo)時,可支持換盤操作。

通過這些技術(shù)優(yōu)化,浪潮信息ISPIM管理軟件可以實現(xiàn)對內(nèi)存和硬盤的故障預(yù)測,大大提高系統(tǒng)穩(wěn)定性。

  • 故障自愈

浪潮信息ISPIM管理軟件在針對故障自愈方面,可以支持內(nèi)存故障自動隔離,在操作系統(tǒng)層面,結(jié)合MCE(Machine Check Exception)日志數(shù)據(jù)信息,基于CE故障信息,通過虛擬內(nèi)存故障Page診斷算法,確定內(nèi)存故障Page,并在操作系統(tǒng)內(nèi)核執(zhí)行Page Offline,通過虛擬內(nèi)存技術(shù),隔離對故障內(nèi)存區(qū)域的訪問,實現(xiàn)內(nèi)存故障隔離。在物理內(nèi)存層面,基于CE故障信息,通過物理內(nèi)存故障診斷算法,利用SPPR(Soft Post Package Repair)、HPPR(Hard Post Package Repair)對物理內(nèi)存故障Row進行隔離,在技術(shù)上實現(xiàn)對故障內(nèi)存的永久性隔離,提高操作系統(tǒng)的穩(wěn)定性和可靠性,從而保障業(yè)務(wù)的穩(wěn)定可靠運行。

  • 性能預(yù)測

性能預(yù)測是指對服務(wù)器的性能數(shù)據(jù),經(jīng)過ARIMA、指數(shù)平滑、LSTM、Prophet等智能算法,能夠感知系統(tǒng)在未來幾個小時、幾天或者一年的數(shù)據(jù)的走勢、增長量或者周期性變化等。浪潮信息ISPIM管理軟件憑借自研性能分析核心組件,可支撐上萬臺服務(wù)器同時進行秒級性能數(shù)據(jù)的監(jiān)控與告警,幫助運維人員實時掌握設(shè)備的性能狀況,實現(xiàn)對磁盤壽命、容量預(yù)測,準(zhǔn)確率達到99%。

浪潮信息物理基礎(chǔ)設(shè)施管理平臺ISPIM(Inspur Physical Infrastructure Manager),具備資源管理、故障監(jiān)控、性能監(jiān)控、能耗管理、自動部署、報表統(tǒng)計、網(wǎng)絡(luò)拓撲和3D視圖等功能,可同時對數(shù)萬臺不同品牌服務(wù)器、存儲、網(wǎng)絡(luò)設(shè)備等設(shè)備進行統(tǒng)一監(jiān)控、運維、告警管理,運維效率提升2倍,基于浪潮信息故障專家?guī)斓拇髷?shù)據(jù)規(guī)則故障診斷功能,可將故障診斷準(zhǔn)確率提升到93%,并且可在快速處理故障的同時極大程度降低數(shù)據(jù)泄露風(fēng)險,幫助用戶打造無人值守數(shù)據(jù)中心,提高運維效率并降低運維成本,保障數(shù)據(jù)中心安全、可靠、穩(wěn)定的運行。

本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險,如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉