當(dāng)前位置:首頁 > 中國芯 > 動態(tài)報(bào)道
[導(dǎo)讀]12月17日上午,在中國信息通信研究院主辦的2024第五屆“GOLF+IT新治理領(lǐng)導(dǎo)力論壇”主論壇上,阿里云重磅發(fā)布了全棧AI負(fù)載高可用架構(gòu),以滿足AI大模型企業(yè)級應(yīng)用在大規(guī)模參數(shù)量、復(fù)雜結(jié)構(gòu)和高性能算力背景下,對云服務(wù)處理能力可擴(kuò)展性、服務(wù)連續(xù)性、服務(wù)質(zhì)量和故障快速恢復(fù)的需求。

12月17日上午,在中國信息通信研究院主辦的2024第五屆“GOLF+IT新治理領(lǐng)導(dǎo)力論壇”主論壇上,阿里云重磅發(fā)布了全棧AI負(fù)載高可用架構(gòu),以滿足AI大模型企業(yè)級應(yīng)用在大規(guī)模參數(shù)量、復(fù)雜結(jié)構(gòu)和高性能算力背景下,對云服務(wù)處理能力可擴(kuò)展性、服務(wù)連續(xù)性、服務(wù)質(zhì)量和故障快速恢復(fù)的需求。

以為生成式 AI 打造持續(xù)的卓越用戶體驗(yàn)為目的,阿里云全棧AI負(fù)載高可用架構(gòu)可達(dá)到GPU故障預(yù)測準(zhǔn)確率92%,千卡規(guī)模集群連續(xù)訓(xùn)練有效時(shí)長大于99%,秒級模型自動保存、分鐘級故障恢復(fù);每分鐘10000個pod擴(kuò)展,分鐘級自動擴(kuò)容;核心模型服務(wù)99.99%的API SLA,模型應(yīng)用服務(wù)全鏈路可觀測等重要的AI業(yè)務(wù)高可用目標(biāo),在大規(guī)模數(shù)據(jù)處理和訓(xùn)推場景下,實(shí)現(xiàn)了對Gen AI應(yīng)用業(yè)務(wù)連續(xù)性、響應(yīng)速度、穩(wěn)定性和安全性的全面保障。

在論壇上,2025年中國數(shù)字化治理領(lǐng)域最新評估結(jié)果揭曉,阿里云成為首批通過信通院“企業(yè)用云治理能力成熟度評估”評測的兩家企業(yè)之一,同時(shí)獲得該項(xiàng)能力評估最高等級。

阿里云全棧AI負(fù)載高可用架構(gòu)正式發(fā)布

在AI算力需求逐漸超越通用需求的今天,以GenAI為代表的應(yīng)用場景和技術(shù)倍增,云上企業(yè)需要處理和存儲的數(shù)據(jù)量呈指數(shù)增長,AI驅(qū)動的應(yīng)用在高負(fù)載情況下,對保障業(yè)務(wù)的連續(xù)性、響應(yīng)速度、穩(wěn)定性和安全性均提出了更高要求。

為此,阿里云在升級云平臺自身的技術(shù)服務(wù)能力的同時(shí),將GPU、異構(gòu)算力集群、容器集群、存儲、向量數(shù)據(jù)庫、機(jī)器學(xué)習(xí)平臺等AI負(fù)載高可用全面融入云平臺架構(gòu)設(shè)計(jì),圍繞大模型訓(xùn)練微調(diào)、推理、多模態(tài)數(shù)據(jù)處理等環(huán)節(jié),構(gòu)建具備“高可用模型訓(xùn)練、靈活彈性的推理資源、數(shù)據(jù)高可靠”特性的全棧AI負(fù)載高可用架構(gòu),實(shí)現(xiàn)了從通用負(fù)載向AI負(fù)載的可用性演進(jìn),為客戶AI業(yè)務(wù)構(gòu)建提供穩(wěn)定的業(yè)務(wù)服務(wù)和出色的用戶體驗(yàn)。


WPS圖片(1).png

在高可用模型訓(xùn)練方面,阿里云AI基礎(chǔ)設(shè)施高可用能力融入云服務(wù)整體架構(gòu)設(shè)計(jì),基于AI算法的故障預(yù)測,實(shí)現(xiàn)訓(xùn)推環(huán)節(jié)的性能瓶頸分析和潛在故障分析,GPU故障預(yù)測準(zhǔn)確率達(dá)92%,同時(shí)將異常預(yù)測接入自愈鏈路,訓(xùn)練恢復(fù)自愈率超90%、千卡規(guī)模集群連續(xù)訓(xùn)練有效時(shí)長大于99%,實(shí)現(xiàn)秒級模型自動保存、分鐘級故障恢復(fù);同時(shí),CPFS 高性能存儲集群,在超大集群中 20TB/s 的吞吐能力,支持更大及更加頻繁的 Checkpoint 讀寫,能夠更好地防止數(shù)據(jù)丟失,并提升訓(xùn)練的穩(wěn)定性和可靠性。在網(wǎng)絡(luò)層面,阿里云自研的高性能網(wǎng)絡(luò),業(yè)界首創(chuàng)雙平面的高可用網(wǎng)絡(luò)架構(gòu),網(wǎng)絡(luò)Link和設(shè)備中斷,訓(xùn)練任務(wù)不中斷。

在推理資源方面,阿里云容器計(jì)算服務(wù)ACS的彈性能力實(shí)現(xiàn)每分鐘可以進(jìn)行10000個pod擴(kuò)展,分鐘級自動擴(kuò)容;PAI-EAS模型在線服務(wù),適用于實(shí)時(shí)推理、近實(shí)時(shí)異步推理等多種AI推理場景,能感知每個請求的執(zhí)行進(jìn)度,做到更公平的任務(wù)調(diào)度,提高擴(kuò)縮容效率。同時(shí),阿里云將跨區(qū)域的主動式重路由技術(shù)運(yùn)用到數(shù)據(jù)中心間的通信,從而在跨數(shù)據(jù)中心推理網(wǎng)絡(luò)上,達(dá)到跨域帶寬業(yè)界最高的 99.995% SLA,實(shí)現(xiàn)秒級內(nèi)重新路由,提供一個更加穩(wěn)定的網(wǎng)絡(luò)通信延遲。

對于在實(shí)時(shí)語音交互、實(shí)時(shí)AI搜索等高性能場景有推理需求的客戶,阿里云百煉模型服務(wù)平臺,基于預(yù)訓(xùn)練模型為用戶提供模型推理與應(yīng)用構(gòu)建托管服務(wù),核心模型服務(wù)API達(dá)到 99.99% SLA,高性能場景核心用戶用例中的首包延時(shí)小于300毫秒,能夠有效解決應(yīng)用開發(fā)、模型調(diào)用等過程中的跨區(qū)域TPM限制、高并發(fā)需求下API響應(yīng)變慢等問題,提升Gen AI應(yīng)用推理與構(gòu)建時(shí)的用戶體驗(yàn)。

在數(shù)據(jù)高可靠方面,阿里云數(shù)據(jù)存儲與數(shù)據(jù)庫服務(wù)面向不同計(jì)算引擎、多種 AI 框架進(jìn)行了深度集成,形成承載PB級甚至EB級大規(guī)模數(shù)據(jù)統(tǒng)一的存儲底座,同城冗余容災(zāi),高達(dá)99.995% SLA,數(shù)據(jù)多副本冗余、大文件斷點(diǎn)續(xù)傳、批量和多線程數(shù)據(jù)操作保障數(shù)據(jù)服務(wù)高可靠,向上支撐面向單AZ, 雙AZ, 三AZ及跨Region的高可用服務(wù),跨Region AI數(shù)據(jù)的就近讀寫和負(fù)載均衡,滿足AI數(shù)據(jù)多活的強(qiáng)一致性,AI數(shù)據(jù)冷備、熱備、故障自動切換,解決AI數(shù)據(jù)故障風(fēng)險(xiǎn)。

AI時(shí)代與用戶共建云上的IT新治理

AI時(shí)代的浪潮中,企業(yè)對于高可用架構(gòu)的需求不僅僅停留在節(jié)點(diǎn)的穩(wěn)定性上,而是在更高的層面追求智能化運(yùn)營。阿里云全棧AI負(fù)載的高可用架構(gòu)已為企業(yè)奠定了堅(jiān)實(shí)的技術(shù)基礎(chǔ),而進(jìn)一步的挑戰(zhàn)則在于如何提升云上系統(tǒng)的運(yùn)維管理與治理能力。通過與用戶攜手,阿里云致力于在云環(huán)境中構(gòu)建一個AI-Native的智能化、自動化和可持續(xù)的IT治理體系,為企業(yè)的創(chuàng)新之路保駕護(hù)航。

阿里云根據(jù)多年服務(wù)客戶的經(jīng)驗(yàn)總結(jié)為一系列的方法論和架構(gòu)設(shè)計(jì)原則,推出了阿里云卓越架構(gòu) Well-Architeched Framework,意在幫助企業(yè)在云上構(gòu)建一個安全、穩(wěn)定、高效的應(yīng)用環(huán)境。面向AI技術(shù)融入帶來的更復(fù)雜更大規(guī)模的,根據(jù)云計(jì)算的彈性、實(shí)時(shí)交付、自助化等特點(diǎn),阿里云卓越架構(gòu)進(jìn)一步升級了用云企業(yè)運(yùn)維管理和治理規(guī)則基線的最佳實(shí)踐,依靠Well-Architeched云卓越架構(gòu)來學(xué)習(xí)-度量-優(yōu)化,落地治理潛在的風(fēng)險(xiǎn)隱患,從安全、穩(wěn)定、效率、成本、性能五大支柱全面提升系統(tǒng)整體韌性和運(yùn)營效率。


1735270078120682.png

阿里云開放平臺負(fù)責(zé)人何登成表示,“在云上構(gòu)建可靠的系統(tǒng)是云廠商與用戶共同的責(zé)任。云廠商負(fù)責(zé)提供云平臺的可靠性,確保提供的云服務(wù)可用性符合或超過阿里云服務(wù)等級協(xié)議;用戶需要根據(jù)業(yè)務(wù)需求,選擇合適的產(chǎn)品服務(wù),并根據(jù)云相關(guān)文檔的指導(dǎo)搭建高可用架構(gòu),來確保云上應(yīng)用的可靠性?!?


1735270088913021.jpeg

尤其在AI迅猛發(fā)展的今天,企業(yè)更應(yīng)讓業(yè)務(wù)系統(tǒng)利用現(xiàn)代云平臺的基礎(chǔ)設(shè)施達(dá)到高可用,總結(jié)成三個"面向":面向失敗的設(shè)計(jì)架構(gòu),面向精細(xì)的運(yùn)維管控,面向風(fēng)險(xiǎn)的應(yīng)急快恢。同時(shí),用戶可以在建設(shè)持續(xù)穩(wěn)定的云環(huán)境過程中,面向AI并結(jié)合AI,通過良好的AI模型訓(xùn)推架構(gòu)設(shè)計(jì)、AI數(shù)據(jù)資產(chǎn)處理與存儲、智能診斷與風(fēng)險(xiǎn)預(yù)測等手段,進(jìn)一步提升系統(tǒng)可用性、可靠性、可持續(xù)性。

阿里云獲信通院企業(yè)用云治理能力成熟度評估最高等級

據(jù)信通院發(fā)布的《企業(yè)用云治理能力成熟度分級要求》,企業(yè)用云治理能力成熟度評估共分為L1-L5共5個等級,分別為L1基礎(chǔ)級、L2應(yīng)用級、L3優(yōu)秀級、L4先進(jìn)級、L5卓越級。該分級要求不僅適用于對云服務(wù)使用方用云治理能力成熟度進(jìn)行評估,也適用于對云服務(wù)提供商云服務(wù)治理產(chǎn)品、技術(shù)能力成熟度進(jìn)行評估。阿里云測評結(jié)果為L4+,是目前階段云服務(wù)提供商實(shí)際獲得的最高等級。

此前,阿里云企業(yè)用云治理能力曾兩度獲得信通院評測認(rèn)可,包括2022年“企業(yè)云治理能力成熟度模型”獲信通院科技治理領(lǐng)域年度明星解決方案及產(chǎn)品;2023年“云治理中心”獲信通院科技治理領(lǐng)域年度明星解決方案。


1735270099580152.png

今年,針對企業(yè)用云發(fā)展路徑、企業(yè)云治理發(fā)展趨勢分析與洞察,阿里云聯(lián)合埃森哲發(fā)布《云治理企業(yè)成熟度發(fā)展2024年度報(bào)告》(https://developer.aliyun.com/ebook/8419),報(bào)告調(diào)研取樣來自400多家企業(yè)客戶,橫跨互聯(lián)網(wǎng)、金融、新零售、交通等多個行業(yè),旨在幫助用戶理解云治理概念、企業(yè)用云實(shí)踐的現(xiàn)狀及變遷趨勢,并基于云治理框架的五大分類(即穩(wěn)定性、安全合規(guī)、成本效益、高效性能、卓越運(yùn)營),報(bào)告作為企業(yè)云上旅程的實(shí)踐樣本,為面向AI時(shí)代做好IT新治理和云上架構(gòu)優(yōu)化提供更多的參考與決策依據(jù)。

(完)

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運(yùn)營商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團(tuán))股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉