400G800G 及以上以太網(wǎng)絡(luò),用于高性能計(jì)算系統(tǒng)
掃描二維碼
隨時(shí)隨地手機(jī)看文章
在過去十年中,高性能計(jì)算 (HPC) 系統(tǒng)上的工作流已經(jīng)大大多樣化,通常將 AI/ML 處理與傳統(tǒng) HPC 相結(jié)合。作為回應(yīng),已經(jīng)設(shè)計(jì)并使用了各種各樣的專用 HPC 計(jì)算機(jī)系統(tǒng)(集群節(jié)點(diǎn))來解決特定的應(yīng)用程序和框架性能優(yōu)化問題。針對這些系統(tǒng)的不同隊(duì)列允許每個(gè)用戶指示批處理調(diào)度程序?qū)⒆鳂I(yè)分派到與其應(yīng)用程序的計(jì)算要求非常匹配的硬件。高內(nèi)存節(jié)點(diǎn)、具有一個(gè)或多個(gè)加速器的節(jié)點(diǎn)、支持高性能并行文件系統(tǒng)的節(jié)點(diǎn)、交互式節(jié)點(diǎn)以及旨在支持容器化或虛擬化工作流的主機(jī)只是為 HPC 開發(fā)的專用節(jié)點(diǎn)組的幾個(gè)示例。
托管 HPC 集群的數(shù)據(jù)中心中互連系統(tǒng)的密度和流量要求需要像脊/葉架構(gòu)這樣的拓?fù)浣Y(jié)構(gòu)。如果 HPC 系統(tǒng)的容量增長超出單個(gè)位置的容量并且正在分布在多個(gè)建筑物或數(shù)據(jù)中心。涉及進(jìn)程間通信、交互式訪問、共享文件系統(tǒng) I/O 以及 NTP、DNS 和 DHCP 等服務(wù)流量的流量模式,其中一些表現(xiàn)出很強(qiáng)的延遲敏感性,否則將不得不競爭可用帶寬。使用脊/葉架構(gòu)的連接通過啟用可以為任何節(jié)點(diǎn)到節(jié)點(diǎn)通信提供唯一且不受限制的路徑的路由算法來解決這個(gè)問題。
HPC 現(xiàn)在正在從幾乎完全專門構(gòu)建的本地基礎(chǔ)架構(gòu)進(jìn)一步發(fā)展為混合甚至完全駐留在云的架構(gòu)。過去幾十年來,構(gòu)建、運(yùn)營和維護(hù)用于托管專用 HPC 的基礎(chǔ)設(shè)施的高昂成本已促使許多政府實(shí)驗(yàn)室、公司和大學(xué)重新思考專用 HPC 的戰(zhàn)略。除了購買構(gòu)建本地 HPC 集群所需的空間、機(jī)架、電源、冷卻、數(shù)據(jù)存儲、服務(wù)器和網(wǎng)絡(luò),更不用說維護(hù)和更新這些系統(tǒng)的人員和費(fèi)用,除了最大的 HPC 從業(yè)者之外,所有的人都在遷移從提供 HPC 服務(wù)的云提供商那里獲得更加基于使用的模型。這些變化刺激了對互聯(lián)網(wǎng)連接和帶寬的重新投資,以實(shí)現(xiàn)云爆發(fā)、數(shù)據(jù)遷移、和云駐留基礎(chǔ)架構(gòu)上的交互性。這為致力于建立自定義環(huán)境以開發(fā)和運(yùn)行應(yīng)用程序框架的開發(fā)人員帶來了新的挑戰(zhàn),通常會(huì)產(chǎn)生復(fù)雜的軟件版本相互依賴性。容器化的使用有助于隔離許多這些軟件和庫依賴項(xiàng),由于放松了主機(jī)映像限制,使云遷移變得更簡單。
400G/800G 以太網(wǎng)的 HPC 網(wǎng)絡(luò)基礎(chǔ)設(shè)施注意事項(xiàng)
負(fù)責(zé)提供所有這些流量的互聯(lián)網(wǎng)服務(wù)提供商和運(yùn)營商依賴于以穩(wěn)定可靠的速度增長的技術(shù),當(dāng)然,他們的成本意識很強(qiáng),因?yàn)樗麄兊牡拙€與建設(shè)、升級和管理的投資有關(guān)網(wǎng)絡(luò)基礎(chǔ)設(shè)施的運(yùn)營成本。超大規(guī)模運(yùn)營商和云服務(wù)提供商還面臨著越來越大的成本壓力,需要在其數(shù)據(jù)中心聚合和減少交換機(jī)設(shè)備的數(shù)量、電力利用率和冷卻需求。
在將以太網(wǎng)驅(qū)動(dòng)到這些新的速度高度時(shí),成本并不是唯一需要考慮的因素。 PAM-4 信令最初以 25 Gb/s 的信令速率引入,作為 100G 以太網(wǎng)的推動(dòng)者,但由于誤碼率較高,這種方法需要前向糾錯(cuò) (FEC)。包含 FEC 的信令更改會(huì)為物理層設(shè)計(jì)帶來延遲開銷和復(fù)雜性,但更快的信令速率也需要強(qiáng)制使用 FEC。雖然多個(gè) 100 Gb/s 端口的鏈路聚合以實(shí)現(xiàn)更高的帶寬(通過 NRZ 信令速率仍然可以實(shí)現(xiàn))可能是解決此問題的臨時(shí)方法,但由于它所需要的密度限制以及所需的成倍增加的端口數(shù)量的成本增加。對于超過 400G 的以太網(wǎng),
布線是高速以太網(wǎng)的另一個(gè)挑戰(zhàn)。即使在短距離內(nèi),銅纜在這些速度下通常噪音太大且耗電 光纜必須更靠近核心物理編碼子系統(tǒng) (PCS) 層,以避免由于使用外部電光子連接器而引入的信號損失和功率需求。一個(gè)用例需要中斷布線選項(xiàng),因?yàn)榫哂凶銐蚋邘挼膯蝹€(gè)交換機(jī)端口可以支持多個(gè)計(jì)算機(jī)系統(tǒng)。另一個(gè)用例側(cè)重于匯聚層交換機(jī)到交換機(jī)或站點(diǎn)到站點(diǎn)的連接。用于長距離連接(每個(gè)重復(fù)段約 80 公里)的密集波分復(fù)用 (DWDM) 和用于較短距離連接的單模光纖 (SMF) 將逐漸取代多模光纖和銅線技術(shù),以實(shí)現(xiàn) 200 Gb/s 的信號速率,但 100G 電信號速率和多模光纖成本優(yōu)勢將在未來幾年內(nèi)難以克服和取代。CWDM 和 DWDM 引入了相干光信號作為 PAM-4 的替代方案,但需要更大的功率、成本和復(fù)雜性才能實(shí)現(xiàn)更長的傳輸距離。在數(shù)據(jù)中心內(nèi),向后兼容性、交換機(jī)聚合和交換機(jī)數(shù)量減少以及節(jié)能潛力的壓力是靈活的板載光學(xué)設(shè)計(jì)的強(qiáng)大誘因,該設(shè)計(jì)還可以容納現(xiàn)有的可插拔模塊以實(shí)現(xiàn)降速連接。和復(fù)雜性,以實(shí)現(xiàn)他們實(shí)現(xiàn)的更遠(yuǎn)距離。在數(shù)據(jù)中心內(nèi),向后兼容性、交換機(jī)聚合和交換機(jī)數(shù)量減少以及節(jié)能潛力的壓力是靈活的板載光學(xué)設(shè)計(jì)的強(qiáng)大誘因,該設(shè)計(jì)還可以容納現(xiàn)有的可插拔模塊以實(shí)現(xiàn)降速連接。和復(fù)雜性,以實(shí)現(xiàn)他們實(shí)現(xiàn)的更遠(yuǎn)距離。在數(shù)據(jù)中心內(nèi),向后兼容性、交換機(jī)聚合和交換機(jī)數(shù)量減少以及節(jié)能潛力的壓力是靈活的板載光學(xué)設(shè)計(jì)的強(qiáng)大誘因,該設(shè)計(jì)還可以容納現(xiàn)有的可插拔模塊以實(shí)現(xiàn)降速連接。
使用 IP 啟用 400G/800G 以太網(wǎng)
那么 SoC 設(shè)計(jì)人員如何開發(fā)支持 400G 及以上以太網(wǎng)的芯片呢?網(wǎng)絡(luò)交換機(jī)和計(jì)算機(jī)系統(tǒng)必須使用支持這些高數(shù)據(jù)速率的組件來提供它們所承諾的應(yīng)用程序加速。無論是降低網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜性以實(shí)現(xiàn)更高級別的聚合,將超大規(guī)模器的基礎(chǔ)架構(gòu)擴(kuò)展至超出先前較慢網(wǎng)絡(luò)技術(shù)所施加的限制,還是加快將數(shù)據(jù)傳輸?shù)竭\(yùn)行在一組網(wǎng)絡(luò)連接計(jì)算機(jī)上的神經(jīng)網(wǎng)絡(luò)——數(shù)據(jù)路徑中的所有元素都必須能夠支持所需的較低延遲和較高帶寬,而不會(huì)產(chǎn)生過多的功率或成本損失。當(dāng)然,與較慢組件的向后兼容性將確保 400G/800G 以太網(wǎng)及更高版本的無縫采用和集成到現(xiàn)有數(shù)據(jù)中心。
在 400G/800G 網(wǎng)絡(luò)中提供這種性能涉及物理和電子領(lǐng)域的多重挑戰(zhàn)。具有更快時(shí)鐘速度、并行路徑和復(fù)雜信號要求的電效率難以實(shí)現(xiàn),而更快的通信速度所固有的更高錯(cuò)誤率產(chǎn)生了對高效 FEC 的需求,以確保在低重傳率的情況下實(shí)現(xiàn)最小延遲。如前所述,布線介質(zhì)必須支持機(jī)架、數(shù)據(jù)中心甚至城市規(guī)模的更高數(shù)據(jù)速率。沒有一種布線技術(shù)能在如此多樣化的長度范圍內(nèi)達(dá)到理想狀態(tài),因此開發(fā)的任何解決方案都必須支持多種媒體類型。
SoC 設(shè)計(jì)人員需要在考慮所有這些因素的情況下開發(fā)硅 IP,Synopsys 在多代協(xié)議中一直是以太網(wǎng)硅 IP 的領(lǐng)先開發(fā)商,并且在推動(dòng) 400G/800G 以太網(wǎng)及更高版本的標(biāo)準(zhǔn)化方面仍然不可或缺。Synopsys 提供集成的400G/800G 以太網(wǎng) IP解決方案,該解決方案符合行業(yè)標(biāo)準(zhǔn),可配置以滿足當(dāng)今 HPC 的各種需求,即使是 AI/ML 工作負(fù)載,同時(shí)保持向后兼容較低的速度和較舊的標(biāo)準(zhǔn)化。