亞馬遜云科技推出全新數(shù)據(jù)中心組件,支持AI創(chuàng)新并進(jìn)一步提升能效
北京——2024年12月11日 亞馬遜云科技在2024 re:Invent全球大會(huì)上,宣布推出一系列數(shù)據(jù)中心新組件,旨在支持新一代人工智能(AI)創(chuàng)新并滿足客戶不斷變化的需求。亞馬遜云科技通過對(duì)電源、冷卻和硬件設(shè)計(jì)等進(jìn)行的一系列創(chuàng)新,構(gòu)建了一個(gè)更加節(jié)能的數(shù)據(jù)中心,為客戶進(jìn)一步創(chuàng)新奠定基礎(chǔ)。亞馬遜云科技在全球新推出的數(shù)據(jù)中心都將具備這些新組件,現(xiàn)有的數(shù)據(jù)中心已經(jīng)部署了很多關(guān)鍵組件。
亞馬遜云科技基礎(chǔ)設(shè)施服務(wù)副總裁Prasad Kalyanaraman表示:“亞馬遜云科技通過持續(xù)推動(dòng)基礎(chǔ)設(shè)施創(chuàng)新,致力于為全球客戶構(gòu)建性能卓越、可靠、安全且可持續(xù)發(fā)展的云。我們數(shù)據(jù)中心的這些新能力,包括能源效率的提升以及對(duì)新興工作負(fù)載的靈活支持,是我們?cè)谠朴?jì)算領(lǐng)域的又一重要進(jìn)展。更令人興奮的是,這些功能均采用模塊化設(shè)計(jì),這讓我們得以對(duì)現(xiàn)有基礎(chǔ)設(shè)施進(jìn)行升級(jí)改造,實(shí)現(xiàn)液體冷卻并提高能源效率,這不僅為生成式AI應(yīng)用提供強(qiáng)大的動(dòng)力,同時(shí)還降低了我們的碳足跡?!?
亞馬遜云科技擁有18年構(gòu)建大規(guī)模數(shù)據(jù)中心的深厚經(jīng)驗(yàn),以及13年為AI工作負(fù)載提供基于GPU的服務(wù)器的豐富經(jīng)驗(yàn)。目前,亞馬遜云科技的數(shù)據(jù)中心為全球數(shù)百萬活躍客戶提供服務(wù),包括數(shù)十萬使用亞馬遜云科技AI和機(jī)器學(xué)習(xí)服務(wù)的客戶,以及全球數(shù)萬個(gè)使用Amazon Bedrock構(gòu)建其生成式AI應(yīng)用的客戶。隨著生成式AI的日益普及以及客戶對(duì)GPU容量需求的不斷增長,亞馬遜云科技不斷調(diào)整和優(yōu)化數(shù)據(jù)中心,以支持更高的功率密度需求。主要的提升包括:
1. 簡(jiǎn)化電氣和機(jī)械設(shè)計(jì),提高可用性
亞馬遜云科技始終致力于打造業(yè)界最可靠的基礎(chǔ)設(shè)施。簡(jiǎn)化的電氣和機(jī)械設(shè)計(jì)更可靠,并易于維護(hù),能確??蛻羰芤嬗诟呖捎眯裕@是亞馬遜云科技自創(chuàng)立之日起始終為客戶提供的。
亞馬遜云科技最新的數(shù)據(jù)中心設(shè)計(jì)優(yōu)化中,就包括簡(jiǎn)化的電力分配和機(jī)械系統(tǒng),實(shí)現(xiàn)基礎(chǔ)設(shè)施的可用性達(dá)99.9999%。同時(shí),簡(jiǎn)化的系統(tǒng)將可能受到電氣問題影響的機(jī)架數(shù)量減少89%。
在亞馬遜云科技的數(shù)據(jù)中心內(nèi),電力供應(yīng)需經(jīng)過一系列轉(zhuǎn)換與分配過程,才能抵達(dá)IT設(shè)備。這一流程中的每一步驟都伴隨著效率的損耗、能源的消耗,以及潛在的故障風(fēng)險(xiǎn)。例如,亞馬遜云科技簡(jiǎn)化了電力分配系統(tǒng),從而將潛在故障點(diǎn)的數(shù)量減少了20%。簡(jiǎn)化的另一個(gè)例子還包括將備用電源更緊密地集成至機(jī)架附近,并減少排熱風(fēng)扇的數(shù)量。亞馬遜云科技使用自然壓差來排出熱空氣,這提高了服務(wù)器的可用電力。這些改進(jìn)措施不僅顯著降低了整體能耗,還最大限度地減少了故障風(fēng)險(xiǎn)。
2. 在冷卻、機(jī)架設(shè)計(jì)和控制系統(tǒng)進(jìn)行創(chuàng)新
亞馬遜云科技推出了一系列新功能及增強(qiáng)功能,致力于為客戶提供具有高性能、高可用性和能效卓越的基礎(chǔ)設(shè)施。亞馬遜云科技數(shù)據(jù)中心的創(chuàng)新包括:
· 液體冷卻:新型的AI服務(wù)器將受益于液體冷卻更有效地應(yīng)對(duì)高密度計(jì)算芯片的冷卻需求。亞馬遜云科技開發(fā)了一項(xiàng)先進(jìn)的機(jī)械冷卻解決方案——在其新建及現(xiàn)有數(shù)據(jù)中心配置“液體到芯片”的冷卻系統(tǒng)。一些亞馬遜云科技的技術(shù)利用不需要液體冷卻的網(wǎng)絡(luò)和存儲(chǔ)基礎(chǔ)設(shè)施,因此更新后的冷卻系統(tǒng)將無縫集成空氣和液體冷卻功能,用于支持包括如Amazon Trainium2的強(qiáng)大AI芯片系列,NVIDIA GB200 NVL72等機(jī)架級(jí)AI超級(jí)計(jì)算解決方案,以及亞馬遜云科技網(wǎng)絡(luò)交換機(jī)和存儲(chǔ)服務(wù)器。無論客戶運(yùn)行傳統(tǒng)工作負(fù)載還是AI模型,這種靈活的多模式冷卻設(shè)計(jì)確保了亞馬遜云科技都能以最低的成本為客戶提供最佳性能和效率。這種獨(dú)特的液體冷卻機(jī)架設(shè)計(jì)是亞馬遜云科技與領(lǐng)先的芯片制造商合作開發(fā)的,旨在加快AI工作負(fù)載的上市時(shí)間。
· 支持高密度AI工作負(fù)載:亞馬遜云科技通過優(yōu)化數(shù)據(jù)中心的機(jī)架布局,最大化電力使用效率。亞馬遜云科技通過軟件實(shí)現(xiàn)了這一點(diǎn),該軟件由數(shù)據(jù)和生成式AI驅(qū)動(dòng),能夠精確預(yù)測(cè)服務(wù)器的最佳部署方式。亞馬遜云科技將減少浪費(fèi)的電力,包括閑置以及未充分使用的能源,從而更有效地利用可用的能源。
這一設(shè)計(jì)旨在滿足AI工作負(fù)載對(duì)新一代硬件和高密度機(jī)架配置的需求,同時(shí)又保持足夠的靈活性,適配其他廣泛的硬件需求。亞馬遜云科技基礎(chǔ)設(shè)施為客戶提供了廣泛而深入的計(jì)算實(shí)例選擇,現(xiàn)已提供超過750種Amazon Elastic Cloud Compute (Amazon EC2)實(shí)例,讓客戶可為幾乎所有的工作負(fù)載選擇最合適的處理器、存儲(chǔ)、網(wǎng)絡(luò)、操作系統(tǒng)以及購買選項(xiàng)。除了靈活的多模式冷卻解決方案外,亞馬遜云科技在電力傳輸系統(tǒng)上也實(shí)現(xiàn)了工程突破,使得亞馬遜云科技在未來兩年內(nèi)能夠?qū)C(jī)架功率密度提升6倍,并有望在未來進(jìn)一步提升3倍。這部分得益于新的電源架的應(yīng)用,新的電源架能夠高效地在整個(gè)機(jī)架內(nèi)分配電力,顯著降低了電力轉(zhuǎn)換過程中的損耗。
總體而言,這些創(chuàng)新措施讓亞馬遜云科技每個(gè)站點(diǎn)為客戶工作負(fù)載提供增加12%的計(jì)算能力。這一進(jìn)步意味著在提供同等計(jì)算能力的情況下,所需的數(shù)據(jù)中心數(shù)量將會(huì)減少。
· 升級(jí)的控制系統(tǒng):新推出的由亞馬遜自主研發(fā)的控制系統(tǒng)已應(yīng)用于亞馬遜云科技的電氣與機(jī)械設(shè)備中,實(shí)現(xiàn)了監(jiān)控、報(bào)警和運(yùn)營流程的標(biāo)準(zhǔn)化。例如,利用亞馬遜云科技內(nèi)部構(gòu)建的遙測(cè)工具使用亞馬遜云科技的技術(shù),能夠提供實(shí)時(shí)診斷和故障排除服務(wù),這些服務(wù)確??蛻舯3肿罴堰\(yùn)行狀態(tài)。此外,亞馬遜云科技在提升控制系統(tǒng)冗余度的同時(shí),也簡(jiǎn)化了系統(tǒng)復(fù)雜性。這些改進(jìn)使得亞馬遜云科技基礎(chǔ)設(shè)施可用性設(shè)計(jì)達(dá)到99.9999%。
3. 實(shí)現(xiàn)能效與可持續(xù)的雙提升:機(jī)械能耗降低46%,混凝土含碳量減少35%
多年來,亞馬遜云科技在推動(dòng)基礎(chǔ)設(shè)施能效與可持續(xù)性方面始終走在行業(yè)前列。據(jù)研究顯示,亞馬遜云科技的基礎(chǔ)設(shè)施效率是企業(yè)自建基礎(chǔ)設(shè)施的4.1倍,通過在亞馬遜云科技上優(yōu)化工作負(fù)載,相關(guān)的碳足跡能夠最高減少99%。在2023年,亞馬遜云科技已提前實(shí)現(xiàn)了運(yùn)營所需電力100%來自可再生能源的目標(biāo),比原定的2030年提前了七年。
亞馬遜云科技不斷評(píng)估其數(shù)據(jù)中心的運(yùn)行,通過不懈的創(chuàng)新提高基礎(chǔ)設(shè)施的能源利用率。新組件在能效和可持續(xù)發(fā)展上的更新如下:
· 更高效的冷卻系統(tǒng),在高峰冷卻需求期間,與前一代設(shè)計(jì)相比預(yù)計(jì)其機(jī)械能耗降低高達(dá)46%,同時(shí)每兆瓦的用水量不變。設(shè)計(jì)改變包括全新的單側(cè)冷卻系統(tǒng)、減少冷卻設(shè)備數(shù)量以及引入液體冷卻功能。
· 降低數(shù)據(jù)中心建筑外殼混凝土的固有碳排放量,較行業(yè)平均水平最高可降低35%。亞馬遜云科技采用了規(guī)范的低碳鋼和低碳混凝土,并通過優(yōu)化結(jié)構(gòu)設(shè)計(jì)來減少鋼材的使用總量。
· 備用發(fā)電機(jī)將采用可再生柴油,這是一種可生物降解且無毒的燃料,與傳統(tǒng)的化石柴油相比,其生命周期內(nèi)的溫室氣體排放量可減少高達(dá)90%。亞馬遜云科技已開始在歐洲和美國的數(shù)據(jù)中心推廣使用可再生柴油作為備用發(fā)電機(jī)的燃料。
英偉達(dá)超大規(guī)模與高性能計(jì)算事業(yè)部副總裁Ian Buck表示:“隨著AI需求的不斷發(fā)展,數(shù)據(jù)中心亦需同步加速演進(jìn)。先進(jìn)的液體冷卻解決方案能夠高效的冷卻AI基礎(chǔ)設(shè)施,同時(shí)顯著降低能耗。我們與亞馬遜云科技在液體冷卻機(jī)架設(shè)計(jì)上的攜手合作,將幫助客戶以卓越的性能和效率運(yùn)行高強(qiáng)度的AI工作負(fù)載?!?
“在Anthropic,我們致力于開發(fā)領(lǐng)先的基礎(chǔ)模型,而安全、高性能且節(jié)能的基礎(chǔ)設(shè)施是我們成功的關(guān)鍵,”Anthropic計(jì)算部門杰出工程師James Bradbury表示:“亞馬遜云科技致力于構(gòu)建先進(jìn)的數(shù)據(jù)中心,這是我們選擇其作為主要云服務(wù)提供商和模型訓(xùn)練合作伙伴的重要原因之一。亞馬遜云科技的設(shè)計(jì)改進(jìn)顯著提升了基礎(chǔ)設(shè)施的安全性、可擴(kuò)展性和效率,為AI模型的運(yùn)行和創(chuàng)新提供了強(qiáng)有力的支撐。”
亞馬遜云科技的數(shù)據(jù)中心新組件將在亞馬遜云科技全球基礎(chǔ)設(shè)施進(jìn)行部署,覆蓋全球34個(gè)區(qū)域、108個(gè)可用區(qū),以及如Amazon Local Zones等其他基礎(chǔ)設(shè)施。預(yù)計(jì)在2025年初,包含完整組件的新型亞馬遜云科技數(shù)據(jù)中心建設(shè)將在美國啟動(dòng)。