當(dāng)前位置:首頁(yè) > 芯聞號(hào) > 美通社全球TMT
[導(dǎo)讀]北京2024年10月21日 /美通社/ -- 隨著數(shù)字化和智慧化的加速落地,數(shù)據(jù)中心的設(shè)備規(guī)??焖倥噬?。數(shù)據(jù)中心的Scale out給基礎(chǔ)設(shè)施運(yùn)維管理帶來(lái)全新挑戰(zhàn)。以擁有10萬(wàn)+設(shè)備的大規(guī)模數(shù)據(jù)中心為例,面對(duì)每日產(chǎn)生高達(dá)近30TB的設(shè)備運(yùn)行狀態(tài)、億級(jí)監(jiān)控指標(biāo)、數(shù)千條告警...

北京2024年10月21日 /美通社/ -- 隨著數(shù)字化和智慧化的加速落地,數(shù)據(jù)中心的設(shè)備規(guī)??焖倥噬?。數(shù)據(jù)中心的Scale out給基礎(chǔ)設(shè)施運(yùn)維管理帶來(lái)全新挑戰(zhàn)。以擁有10萬(wàn)+設(shè)備的大規(guī)模數(shù)據(jù)中心為例,面對(duì)每日產(chǎn)生高達(dá)近30TB的設(shè)備運(yùn)行狀態(tài)、億級(jí)監(jiān)控指標(biāo)、數(shù)千條告警推送等,如何秒級(jí)反饋海量并發(fā)需求,保證管理平臺(tái)穩(wěn)定運(yùn)行?如何避免將每秒近千條的大規(guī)模設(shè)備告警風(fēng)暴強(qiáng)塞給客戶,進(jìn)行根因定位并避免誤報(bào)、漏報(bào)?這些挑戰(zhàn)正伴隨服務(wù)器、存儲(chǔ)和網(wǎng)絡(luò)設(shè)備規(guī)模的持續(xù)增長(zhǎng),成為超大規(guī)模數(shù)據(jù)中心管理亟待解決的難題。

浪潮信息InManage是一款面向數(shù)據(jù)中心基礎(chǔ)設(shè)施的智能管理平臺(tái),通過統(tǒng)一接口、協(xié)議,能夠納管多達(dá)400不同廠商、不同型號(hào)的服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)等機(jī)型,設(shè)備規(guī)模最多可達(dá)10萬(wàn)臺(tái),為超大規(guī)模數(shù)據(jù)中心運(yùn)維提供智能均衡調(diào)度、實(shí)時(shí)精準(zhǔn)告警等管理功能。浪潮信息InManage通過智能均衡作業(yè)調(diào)度平臺(tái),能夠在秒級(jí)內(nèi)處理超大規(guī)模數(shù)據(jù)中心億級(jí)實(shí)時(shí)并發(fā)運(yùn)維管理數(shù)據(jù),并基于自研的告警管理框架,實(shí)現(xiàn)5秒內(nèi)響應(yīng)上千條告警風(fēng)暴,顯著降低告警誤報(bào)與漏報(bào)的風(fēng)險(xiǎn)。InManage不僅創(chuàng)造了金融行業(yè)單一數(shù)據(jù)中心帶外管理的最大紀(jì)錄,還實(shí)現(xiàn)了數(shù)據(jù)中心基礎(chǔ)設(shè)施全生命周期管理,整體運(yùn)維效率提升兩倍,為超大規(guī)模數(shù)據(jù)中心的穩(wěn)定、高效運(yùn)行奠定了重要基礎(chǔ)。

億級(jí)數(shù)據(jù)、千條告警秒級(jí)處理!浪潮信息InManage智能管理10萬(wàn)+IT設(shè)備


10萬(wàn)+超大規(guī)模設(shè)備集群管理,面臨穩(wěn)定性與實(shí)時(shí)性多重挑戰(zhàn)

隨著數(shù)據(jù)中心的規(guī)?;l(fā)展,服務(wù)器數(shù)量爆發(fā)式增長(zhǎng),數(shù)據(jù)中心設(shè)備規(guī)模從最初的1000臺(tái)增加到10萬(wàn)臺(tái),規(guī)模擴(kuò)大了100倍,涵蓋了不同年代和廠商的服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)設(shè)備等,設(shè)備種類多,內(nèi)存、電源、硬盤、風(fēng)扇等各類故障發(fā)生的不確定性大。對(duì)于不同設(shè)備的統(tǒng)一管理,一般運(yùn)維管理平臺(tái)會(huì)在底層屏蔽設(shè)備差異,基于基線策略來(lái)實(shí)現(xiàn)納管。但隨著數(shù)據(jù)中心規(guī)模的驟增,數(shù)據(jù)中心運(yùn)維管理的穩(wěn)定性和故障的實(shí)時(shí)精準(zhǔn)告警等挑戰(zhàn)變得日益嚴(yán)苛。

首要面對(duì)的挑戰(zhàn)是大規(guī)模數(shù)據(jù)中心基礎(chǔ)設(shè)施管理平臺(tái)的失穩(wěn)問題。大規(guī)?;A(chǔ)設(shè)施管理要對(duì)不同基礎(chǔ)設(shè)施運(yùn)行狀態(tài)進(jìn)行實(shí)時(shí)分析,每天數(shù)據(jù)量達(dá)到TB級(jí),而且海量并發(fā)需求要在秒級(jí)反饋,極易出現(xiàn)故障上報(bào)不及時(shí)、頁(yè)面卡頓,甚至管理平臺(tái)宕機(jī)。比如以往某客戶數(shù)據(jù)中心管理平臺(tái)進(jìn)行運(yùn)維測(cè)試時(shí),基礎(chǔ)設(shè)施規(guī)模從1000臺(tái)增長(zhǎng)到5000臺(tái),規(guī)模提升到原來(lái)的5倍,會(huì)出現(xiàn)管理頁(yè)面卡頓,后臺(tái)日志顯示大量采集任務(wù)超時(shí)的問題。即使后續(xù)對(duì)管理平臺(tái)進(jìn)行分布式部署,系統(tǒng)負(fù)載依然出現(xiàn)較明顯的峰值抖動(dòng)現(xiàn)象,導(dǎo)致頁(yè)面周期性卡頓。其原因主要是作業(yè)被調(diào)度后,缺乏有效的離散管理,高峰與低谷負(fù)載不均,對(duì)系統(tǒng)穩(wěn)定性帶來(lái)極大的挑戰(zhàn)。此外,對(duì)于海量資源的數(shù)據(jù)采集任務(wù),會(huì)受線程數(shù)、采集周期和耗時(shí)等因素影響,容易造成任務(wù)積壓,對(duì)管理平臺(tái)異常情況下的任務(wù)隔離與自動(dòng)降頻能力提出更高要求。

此外,設(shè)備大規(guī)模告警的延遲、誤報(bào)和漏報(bào)是另一大挑戰(zhàn)。在10萬(wàn)+大規(guī)模設(shè)備運(yùn)維場(chǎng)景中,一般金融等行業(yè)的客戶數(shù)據(jù)中心管理平臺(tái)通常以平鋪直敘方式呈現(xiàn)設(shè)備告警,缺乏更深層的故障根因判斷、全周期管理等能力。在此場(chǎng)景下,一旦服務(wù)器BMC在批量刷新固件時(shí)出現(xiàn)故障,可能會(huì)在短時(shí)間內(nèi)產(chǎn)生大量的Trap推送,同時(shí)還夾雜著設(shè)備離線等一系列異常告警。數(shù)千條告警的推送,易造成通信堵塞,從而出現(xiàn)告警延遲、告警丟失等。當(dāng)客戶看到堆積數(shù)千條告警郵件通知時(shí),極易導(dǎo)致客戶誤認(rèn)為系統(tǒng)正面臨重大故障風(fēng)險(xiǎn)。而且由于沒有全周期管理機(jī)制,即便設(shè)備故障修復(fù),告警信息仍會(huì)持續(xù)存在,這也大大增加了運(yùn)維管理的復(fù)雜性。

智能均衡作業(yè)調(diào)度,10萬(wàn)+超大規(guī)模設(shè)備億級(jí)指標(biāo)穩(wěn)定采集

在超大規(guī)模監(jiān)控場(chǎng)景下,作業(yè)調(diào)度不暢極易造成作業(yè)堆積、負(fù)載波峰波谷抖動(dòng),嚴(yán)重影響系統(tǒng)穩(wěn)定性,進(jìn)而影響采集進(jìn)度。為此,浪潮信息InManage自研了ChaosJob作業(yè)調(diào)度中間件,突破了作業(yè)智能均衡調(diào)度技術(shù),實(shí)現(xiàn)了采集作業(yè)的高效調(diào)度和穩(wěn)定執(zhí)行。

  •  在作業(yè)調(diào)度層面,InManage自研的任務(wù)調(diào)度中間件采用了靈活的作業(yè)分片與調(diào)度策略,能夠基于客戶的業(yè)務(wù)場(chǎng)景,對(duì)不同類型設(shè)備、不同協(xié)議類型的采集任務(wù)進(jìn)行可高度自定義的細(xì)粒度分片。通過基于延遲隊(duì)列+漏桶算法的"Job Capping"技術(shù),實(shí)現(xiàn)任務(wù)分片的均衡下發(fā),有效平抑系統(tǒng)負(fù)載波動(dòng),達(dá)到削峰填谷的目標(biāo)。
  •  在任務(wù)執(zhí)行層面,針對(duì)超大規(guī)模數(shù)據(jù)采集這種IO密集型的任務(wù),InManage突破線程優(yōu)先線程池技術(shù),運(yùn)用"作業(yè)智能聚合"機(jī)制,將計(jì)算密集型任務(wù)與IO密集型任務(wù)進(jìn)行智能調(diào)度與聚合,從而加速任務(wù)執(zhí)行,提升系統(tǒng)整體吞吐量,實(shí)現(xiàn)任務(wù)處理的更高效與平穩(wěn)性。
  •  任務(wù)堆積防控層面,InManage的任務(wù)調(diào)度中間件具有異常任務(wù)自動(dòng)識(shí)別與隔離功能,通過靈活的限流與隔離技術(shù),確保任務(wù)"零堆積",同時(shí)保持系統(tǒng)整體吞吐量不受影響。例如,大規(guī)模數(shù)據(jù)中心可能存在多廠商、多型號(hào)的異構(gòu)設(shè)備,有些老舊設(shè)備接口響應(yīng)緩慢,采集耗時(shí)長(zhǎng),而這些設(shè)備往往不運(yùn)行核心業(yè)務(wù),雖然不受重視,又不能遺棄。在此場(chǎng)景下,InManage能夠智能識(shí)別這些設(shè)備的異常表現(xiàn),主動(dòng)將相關(guān)采集任務(wù)進(jìn)行隔離與降頻處理,優(yōu)先保障其他關(guān)鍵任務(wù)的正常執(zhí)行。這一過程完全自動(dòng)化,無(wú)需客戶干預(yù),成功應(yīng)對(duì)了10萬(wàn)規(guī)模管理場(chǎng)景下新舊設(shè)備混雜帶來(lái)的管理挑戰(zhàn)。

圖1浪潮信息 InManage平臺(tái)超大規(guī)模作業(yè)調(diào)度架構(gòu)


圖1浪潮信息 InManage平臺(tái)超大規(guī)模作業(yè)調(diào)度架構(gòu)

告警管道動(dòng)態(tài)分析,1000+告警動(dòng)秒級(jí)實(shí)時(shí)精準(zhǔn)響應(yīng)

在面對(duì)10萬(wàn)+超大規(guī)模設(shè)備管理時(shí),如何避免將系統(tǒng)產(chǎn)生的告警風(fēng)暴強(qiáng)塞給客戶,如何進(jìn)行根因定位并避免誤報(bào)、漏報(bào),是數(shù)據(jù)中心統(tǒng)一管理的另一挑戰(zhàn)。為此,InManage提出了CDCAlarm告警管理框架,突破了告警集成管理技術(shù),實(shí)現(xiàn)了告警的及時(shí)性、準(zhǔn)確性和全面性,同時(shí)支持告警分析、聚合及根因分析等功能。該框架能夠?yàn)榭蛻舫尸F(xiàn)按優(yōu)先級(jí)排序和分類聚合的告警,直觀易懂、方便用戶進(jìn)一步處理。

InManage使用AI技術(shù)手段對(duì)告警進(jìn)行分類、分批處理,實(shí)現(xiàn)告警按來(lái)源、種類的歸并聚合策略,在保證告警時(shí)序性的同時(shí),提升了告警處理的整體吞吐量。同時(shí)使用基于AI的根因定位方法,快速?gòu)母婢L(fēng)暴中準(zhǔn)確識(shí)別出故障根因,并呈現(xiàn)給客戶,有效解決了客戶在面對(duì)告警風(fēng)暴時(shí)無(wú)從入手的局面。

同時(shí),針對(duì)超大規(guī)模監(jiān)控場(chǎng)景下常見的誤報(bào)漏報(bào)等告警不準(zhǔn)確、不及時(shí)問題,InManage也做了優(yōu)化。

秒告警秒恢復(fù)問題:在10萬(wàn)+設(shè)備的管理中,某些設(shè)備可能在發(fā)出告警的同時(shí)又快速發(fā)出了恢復(fù)信號(hào),甚至可能出現(xiàn)恢復(fù)信息先于告警到達(dá)。在此場(chǎng)景下,傳統(tǒng)系統(tǒng)容易誤判為告警未恢復(fù),從而導(dǎo)致誤報(bào)。InManage的智能告警歸并技術(shù)能夠有效識(shí)別和規(guī)避此類時(shí)序問題,確保告警處理的準(zhǔn)確性。

告警噪點(diǎn)問題:在資源利用率實(shí)時(shí)采集場(chǎng)景下,短暫的峰值可能導(dǎo)致瞬時(shí)超閾值的告警,但整體使用率卻保持平穩(wěn)。為避免因這些噪點(diǎn)導(dǎo)致的誤報(bào),InManage的告警管道采用了智能識(shí)別和計(jì)數(shù)技術(shù),能夠?qū)Χ虝r(shí)間內(nèi)的同類告警進(jìn)行聚合處理,從而徹底消除此類誤報(bào)。

告警遺漏問題:在大規(guī)模數(shù)據(jù)中心中,由于網(wǎng)絡(luò)負(fù)載高,SNMP協(xié)議中的Trap信息(基于不可靠的UDP傳輸)更容易丟失。為解決這一問題,InManage提出了融合多種協(xié)議和多源數(shù)據(jù)的AI智能預(yù)警技術(shù),該技術(shù)可提供全天候的設(shè)備實(shí)時(shí)監(jiān)控和故障分析,有效降低了告警遺漏的風(fēng)險(xiǎn),減少客戶業(yè)務(wù)隱患。

圖2 浪潮信息 InManage平臺(tái)告警分析與處理架構(gòu)


圖2 浪潮信息 InManage平臺(tái)告警分析與處理架構(gòu)

穩(wěn)定、快速和高效的超大規(guī)模監(jiān)控

在10萬(wàn)+大規(guī)模設(shè)備管理環(huán)境中,InManage系統(tǒng)表現(xiàn)出了穩(wěn)定的性能與高效的運(yùn)作能力,確保了數(shù)據(jù)采集任務(wù)得以平穩(wěn)且迅速地執(zhí)行,顯著增強(qiáng)了系統(tǒng)的整體處理能力,有效規(guī)避了任務(wù)積壓?jiǎn)栴}。面對(duì)每日高達(dá)近30TB的服務(wù)器運(yùn)行狀態(tài)數(shù)據(jù)洪流,InManage每秒可處理高達(dá)1000條的告警風(fēng)暴,響應(yīng)延遲維持5秒以內(nèi),保證了系統(tǒng)監(jiān)控的實(shí)時(shí)性與準(zhǔn)確性。

此外,InManage還具備對(duì)歷史數(shù)據(jù)進(jìn)行高效壓縮與無(wú)縫轉(zhuǎn)儲(chǔ)的能力,在保障當(dāng)前系統(tǒng)流暢運(yùn)行的同時(shí),確保了歷史數(shù)據(jù)的完整性與可訪問性,有效避免了數(shù)據(jù)丟失的風(fēng)險(xiǎn)。在如此龐大的規(guī)模下,InManage仍能快速查詢一年內(nèi)的歷史告警或事件通知,響應(yīng)時(shí)間縮短至2秒以內(nèi),為客戶提供了強(qiáng)大的歷史問題追溯能力,確保問題根源得以迅速定位,為系統(tǒng)的長(zhǎng)期穩(wěn)定運(yùn)行提供了堅(jiān)實(shí)保障。

InManage滿足了客戶對(duì)于大規(guī)模、多元化、多類型設(shè)備的統(tǒng)一帶外管理,確保了數(shù)據(jù)的穩(wěn)定采集及告警集中高效監(jiān)控,同時(shí)還具備基礎(chǔ)設(shè)施全生命周期資產(chǎn)管理、自動(dòng)化部署管理等能力。其大規(guī)模統(tǒng)一帶外管理技術(shù)、告警智能化分析技術(shù)水平處于國(guó)內(nèi)領(lǐng)先水平,授權(quán)國(guó)家發(fā)明專利超過20項(xiàng)。未來(lái),InManage也將更加關(guān)注客戶需求的變化,不斷優(yōu)化產(chǎn)品和服務(wù),為客戶提供更加全面、高效、智能的解決方案,助力客戶實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型和業(yè)務(wù)升級(jí)。

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來(lái)越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來(lái)越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開幕式在貴陽(yáng)舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語(yǔ)權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競(jìng)爭(zhēng)力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營(yíng)商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡(jiǎn)稱"軟通動(dòng)力")與長(zhǎng)三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉