新華三李立:攻關(guān)算網(wǎng)新技術(shù),推動算力均衡發(fā)展
7月29日-31日,國內(nèi)首個(gè)算力領(lǐng)域的國家級會議2022中國算力大會在山東濟(jì)南召開,眾多院士專家、企業(yè)精英齊聚一堂,共話算力產(chǎn)業(yè)發(fā)展。紫光股份旗下新華三集團(tuán)應(yīng)邀參加本屆盛會,新華三集團(tuán)副總裁、解決方案部總裁李立出席主論壇并發(fā)表演講,分享了新華三集團(tuán)對算力與網(wǎng)絡(luò)融合背景下技術(shù)發(fā)展趨勢的深度洞察。
新華三集團(tuán)副總裁、解決方案部總裁李立
發(fā)表主題演講
今年2月,“東數(shù)西算”工程正式啟動,我國算力基礎(chǔ)設(shè)施建設(shè)步伐進(jìn)一步加快,但隨著算力應(yīng)用場景持續(xù)拓展、數(shù)據(jù)規(guī)模爆炸式增長、算法復(fù)雜度不斷提高,產(chǎn)業(yè)發(fā)展面臨的挑戰(zhàn)也不斷攀升。李立表示,算力產(chǎn)業(yè)主要面臨著日益增長的行業(yè)智能化需求和不均衡、不充分的算力發(fā)展間的矛盾,應(yīng)從芯片級、設(shè)備級、集群級、地域級4個(gè)維度尋找突破口,通過核心技術(shù)攻關(guān)解決從芯片到廣域的IO不均衡問題,助推算力產(chǎn)業(yè)高質(zhì)量發(fā)展。
芯片級:“存算一體”構(gòu)建算力基石
在摩爾定律驅(qū)使下,芯片不斷朝著高性能、低成本、高集成的方向發(fā)展,但隨著單芯片集成的晶體管數(shù)量增多,高耗能等問題隨之出現(xiàn),導(dǎo)致芯片性能難以持續(xù)提升,制約了算力釋放。李立指出,多芯片堆疊封裝為芯片突破性能瓶頸提供了可能,另一方面,“存算一體”的發(fā)展思路可以有效平衡計(jì)算和內(nèi)存的配比,縮短數(shù)據(jù)搬運(yùn)路徑,降低搬運(yùn)功耗,實(shí)現(xiàn)芯片級算力與IO的平衡,為算網(wǎng)融合構(gòu)建算力基石。新華三集團(tuán)未來將攜手業(yè)界積極推進(jìn)相關(guān)標(biāo)準(zhǔn)建設(shè),以實(shí)現(xiàn)片內(nèi)算力和片間互聯(lián)的均衡發(fā)展。
設(shè)備級:互聯(lián)設(shè)計(jì)實(shí)現(xiàn)多維度性能升級
從設(shè)備內(nèi)視角來看,CPU、總線速度、主內(nèi)存帶寬及容量的發(fā)展速度不一,馮諾依曼體系下主內(nèi)存已成為性能增長的主要瓶頸,不僅內(nèi)存容量增速不及CPU內(nèi)核增速,內(nèi)存帶寬也存在不足。另外,CPU、內(nèi)存、GPU集成化設(shè)計(jì)成為IO和計(jì)算協(xié)調(diào)發(fā)展的制約因素,IO設(shè)備級的性能提升需要尋找新的優(yōu)化方向,突破馮諾依曼體系是一個(gè)新思路。
當(dāng)前,以擴(kuò)展總線的Scale-out模式換取IO提升,成為設(shè)備算力提升的有效手段,例如PCIe Switch、CXL Switch、NV Switch、NVMe over Fabric等,業(yè)界已經(jīng)開始嘗試多種總線互聯(lián)和擴(kuò)展技術(shù),從內(nèi)存、GPU、存儲等多個(gè)角度入手,從互聯(lián)設(shè)計(jì)角度出發(fā),對資源進(jìn)行分布式池化設(shè)計(jì),從而平衡數(shù)據(jù)IO和計(jì)算密度。
集群級:AI+在網(wǎng)計(jì)算,保障算力拓?fù)渥顑?yōu)態(tài)
隨著數(shù)據(jù)中心集群規(guī)模不斷膨脹,傳統(tǒng)的Spine-Leaf網(wǎng)絡(luò)架構(gòu)已無法滿足大規(guī)模算力集群的通信需求。部分算力中心采用DragonFly等架構(gòu)進(jìn)行大規(guī)模網(wǎng)絡(luò)互聯(lián)拓?fù)?,業(yè)界也持續(xù)研究最優(yōu)拓?fù)浼軜?gòu),以實(shí)現(xiàn)Scale-out性能線性增長的同時(shí)保障高帶寬、低延時(shí)。
李立認(rèn)為,算力拓?fù)湟彩菢?gòu)建高性能算力中心的關(guān)鍵環(huán)節(jié),運(yùn)用AI技術(shù)和網(wǎng)絡(luò)設(shè)備的在網(wǎng)計(jì)算能力,可以實(shí)時(shí)收集并分析組網(wǎng)、設(shè)備、流量等綜合信息,并通過強(qiáng)化學(xué)習(xí)對業(yè)務(wù)流量模型進(jìn)行算力拓?fù)湟?guī)劃和動態(tài)調(diào)整,從而保障算力拓?fù)涫冀K處于最優(yōu)狀態(tài),滿足大規(guī)模計(jì)算集群的部署需求。新華三集團(tuán)近年來不斷迭代組網(wǎng)拓?fù)洌云趯?shí)現(xiàn)大規(guī)模算力部署和高性能數(shù)據(jù)中心網(wǎng)絡(luò)的均衡,滿足算力擴(kuò)張需求。
地域級:確定性服務(wù)加持廣域算力互聯(lián)及調(diào)度
“東數(shù)西算”工程拉開了算力跨域調(diào)度建設(shè)的序幕,未來各算力中心將跨區(qū)域?qū)崿F(xiàn)互聯(lián)形成算力網(wǎng)絡(luò),這對算力調(diào)度保障、在網(wǎng)算力優(yōu)化建設(shè)等提出了更高要求。
在李立看來,確定性服務(wù)是廣域算力互聯(lián)及調(diào)度的關(guān)鍵點(diǎn),在實(shí)際應(yīng)用中具備諸多優(yōu)勢。在網(wǎng)絡(luò)傳輸層面,傳統(tǒng)的廣域網(wǎng)傳輸是盡力而為的轉(zhuǎn)發(fā)方式,通過引入確定性網(wǎng)絡(luò)技術(shù),可以保證網(wǎng)絡(luò)層面全方位確定性傳輸,數(shù)據(jù)跨區(qū)域傳輸時(shí)延確定可控;在算力調(diào)度層面,通過分布式算網(wǎng)大腦統(tǒng)籌考慮可用算力容量、成本、網(wǎng)絡(luò)傳輸效率等多維屬性,可以為客戶提供確定性有保障的服務(wù)。
算力網(wǎng)絡(luò)涉及網(wǎng)、云、數(shù)、智等多領(lǐng)域技術(shù),要求多產(chǎn)業(yè)鏈高效協(xié)同,任何一個(gè)薄弱環(huán)節(jié)都可能影響產(chǎn)業(yè)整體的演進(jìn)進(jìn)程。當(dāng)前,新華三集團(tuán)已持續(xù)為行業(yè)客戶提供覆蓋云、網(wǎng)、邊、端各類場景的算力供給、算力調(diào)度、算力賦能、算力安全、綠色算力等全方位算力服務(wù),同時(shí)計(jì)劃聯(lián)合業(yè)界專業(yè)機(jī)構(gòu)推出行業(yè)算力發(fā)展指數(shù),通過對行業(yè)算力發(fā)展水平的多維度評估,找出影響算力發(fā)展的關(guān)鍵阻礙,助力算力行業(yè)實(shí)現(xiàn)“共同繁榮”。
算力與網(wǎng)絡(luò)的融合發(fā)展是大勢所趨,只有把握好算網(wǎng)融合新趨勢,加強(qiáng)算網(wǎng)核心技術(shù)攻關(guān),同時(shí)構(gòu)建產(chǎn)業(yè)生態(tài)形成發(fā)展合力,才能更快更好地建成高質(zhì)量算力網(wǎng)絡(luò),讓算力成為普惠大眾的生產(chǎn)力,進(jìn)而推動百行百業(yè)數(shù)字化轉(zhuǎn)型進(jìn)程,促進(jìn)我國數(shù)字經(jīng)濟(jì)的穩(wěn)步健康發(fā)展。