人工智能對數(shù)據(jù)中心基礎(chǔ)設(shè)施帶來了哪些挑戰(zhàn)
在加密貨幣和人工智能/機(jī)器學(xué)習(xí)(AI/ML)等新興應(yīng)用的驅(qū)動下,數(shù)據(jù)中心的能耗巨大,并將快速增長以滿足用戶需求。根據(jù)國際能源署(IEA)的最新報(bào)告,2022 年數(shù)據(jù)中心的耗電量將達(dá)到 460 TWh(太瓦時),約占全球總用電量的 2%。在美國,擁有全球三分之一的數(shù)據(jù)中心,耗電量為 260 TWh,占總用電量的 6%。
預(yù)測未來具有挑戰(zhàn)性,這取決于部署了多少非常耗電的圖形處理單元(GPU)來應(yīng)對人工智能技術(shù)的需求,當(dāng)然還取決于進(jìn)一步增加空調(diào)來降低數(shù)據(jù)中心的溫度。國際能源署的報(bào)告顯示,到 2026 年,數(shù)據(jù)中心的耗電量將至少增長到 650 TWh(40%),但也可能高達(dá) 1,050 TWh(128%)。
數(shù)據(jù)中心支持人工智能趨勢
人工智能是一項(xiàng)極其耗電的技術(shù),支持其運(yùn)行的數(shù)據(jù)中心需要具備足夠的算力和電力輸送能力。
瑞典RISE研究機(jī)構(gòu)最近的一項(xiàng)研究清楚地展示了由于該技術(shù)迅速普及所帶來的巨大變化。例如,ChatGPT在2022年11月推出后僅五天內(nèi)就達(dá)到了100萬用戶。他們在兩個月內(nèi)就擁有了 1 億用戶,而TikTok達(dá)到同一用戶量級用了9個月,Instagram則用了兩年半的時間。
作為參考,在谷歌上進(jìn)行一次搜索僅需 0.28 Wh,相當(dāng)于讓一個60W的燈泡亮17秒。
相比之下,訓(xùn)練 GPT-4 需要 1.7 萬億個參數(shù)和 13 萬億個tokens(單詞片段),這是一個完全不同的命題。要做到這一點(diǎn),需要包含 25,000 個英偉達(dá) A100 GPU的多臺服務(wù)器,每臺服務(wù)器的功耗約為 6.5 kW。OpenAI 表示,訓(xùn)練耗時 100 天,耗能約 50 GWh,耗資 1 億美元。
顯然,人工智能將極大地改變數(shù)據(jù)中心的游戲規(guī)則,其所需的計(jì)算能力和能耗水平將遠(yuǎn)遠(yuǎn)超過我們迄今為止所看到的任何水平。
數(shù)據(jù)中心 48V 架構(gòu)
早期的數(shù)據(jù)中心采用集中式電源架構(gòu) (CPA),將主電源(電網(wǎng))電壓集中轉(zhuǎn)換為 12V(母線電壓),然后將其分配給各服務(wù)器,并使用相對簡單的轉(zhuǎn)換器在本地將其轉(zhuǎn)換為5V 或 3.3V邏輯電平。
然而,隨著功率需求的增長,12V 母線上的電流(以及相關(guān)損耗)變得高得令人無法接受,迫使系統(tǒng)工程師改用48V 母線布置。根據(jù)歐姆定律,電流減少了 4 倍,損耗則降低了 4 倍的平方。這種配置被稱為分布式電源架構(gòu) (DPA)。
與此同時,處理器和其他一些元器件的電壓也在不斷降低,最終降至亞伏特級別,導(dǎo)致需要多個次級電壓軌。為解決這一問題,采用了二階轉(zhuǎn)換技術(shù),通過DC-DC轉(zhuǎn)換器(稱為中間母線轉(zhuǎn)換器 - IBC)將 48V 電壓轉(zhuǎn)換為 12V 母線,再根據(jù)需要從 12V 母線輸出其他電壓。
圖1 服務(wù)器電源系統(tǒng)的結(jié)構(gòu)
對高能效 MOSFET的需求
數(shù)據(jù)中心內(nèi)部的電力損耗給運(yùn)營商帶來了挑戰(zhàn)。首先,也是最明顯的一點(diǎn)是,他們正在為那些無助于服務(wù)器運(yùn)行的電力付費(fèi)。其次,任何浪費(fèi)的能源都會轉(zhuǎn)化為熱量,這就必須設(shè)法處理。由于超大規(guī)模AI服務(wù)器的功率需求高達(dá) 120 kW(而且肯定會隨著時間推移而增加),即使在 50% 負(fù)載的情況下,以 97.5% 的峰值效率計(jì)算 2.5% 的損耗,每臺服務(wù)器也會浪費(fèi) 1.5 kW的電力,相當(dāng)于一臺全時運(yùn)行的電加熱器。
處理熱量可能需要在功率轉(zhuǎn)換系統(tǒng)中采取散熱措施,如散熱器或風(fēng)扇。這些措施會增大電源的體積,占用本可用于更多計(jì)算能力的空間,就風(fēng)扇而言,還會耗費(fèi)電能并增加成本。由于數(shù)據(jù)中心內(nèi)的溫度需要嚴(yán)格控制,過高的損耗也會使環(huán)境溫度升高,這意味著需要更多的空調(diào)來降溫。這既是資本支出,也是運(yùn)營成本,同時還占用空間。
顯然,盡可能高效地將主(電網(wǎng))電壓轉(zhuǎn)換為驅(qū)動人工智能 GPU 和其他設(shè)備供電所需的電壓,對數(shù)據(jù)中心運(yùn)營商來說大有裨益。
因此,多年來人們在電源拓?fù)浣Y(jié)構(gòu)方面做了大量工作,在前端 PFC 階段引入了圖騰柱PFC (TPPFC) 等技術(shù),以提高其效率。此外,為了提高效率,二極管整流器已被 MOSFET 所取代,并引入了同步整流等技術(shù)。
優(yōu)化拓?fù)浣Y(jié)構(gòu)只是其中的一半,要優(yōu)化效率,所有元件也必須盡可能高效,尤其是對轉(zhuǎn)換過程至關(guān)重要的 MOSFET。
當(dāng) MOSFET 用于開關(guān)電源轉(zhuǎn)換時,主要有兩種形式的損耗:導(dǎo)通損耗和開關(guān)損耗。導(dǎo)通損耗由漏極和源極之間的電阻(RDS(ON))造成,在電流流動時一直存在。開關(guān)損耗是由柵極電荷 (Qg)、輸出電荷 (QOSS) 和反向恢復(fù)電荷 (Qrr) 共同造成的,這些電荷在每個開關(guān)周期都會得到補(bǔ)充。由于目前的趨勢是提高開關(guān)頻率以減小磁性元件的尺寸,因此隨著補(bǔ)充頻率的增加,這種損耗也會變得相當(dāng)顯著。
顯然,特定 MOSFET 的導(dǎo)通損耗和開關(guān)損耗越低,電源系統(tǒng)的整體轉(zhuǎn)換效率就越高。
PowerTrench® T10 MOSFET 簡介
同步整流現(xiàn)在已成為所有高性能、大電流、低壓電源轉(zhuǎn)換應(yīng)用中的關(guān)鍵技術(shù),特別是在數(shù)據(jù)中心服務(wù)器的應(yīng)用中更是如此。在這種應(yīng)用中,包括RDS(ON)、Qg、QOSS和Qrr在內(nèi)的幾個MOSFET參數(shù)會直接影響轉(zhuǎn)換效率,器件制造商正努力尋求減小這些影響的方法。
安森美的 PowerTrench T10 MOSFET 采用新型屏蔽柵極溝道設(shè)計(jì),實(shí)現(xiàn)了超低的 Qg 值,且 RDS(ON) 低于 1mOhm 。最新的 PowerTrench T10 技術(shù)不僅減少了振鈴、過沖和噪聲,其業(yè)界先進(jìn)的軟恢復(fù)體二極管還降低了 Qrr。這在導(dǎo)通電阻性能和恢復(fù)特性之間實(shí)現(xiàn)了良好的折中平衡,同時還可實(shí)現(xiàn)具有良好反向恢復(fù)特性的低損耗快速開關(guān)。
總體而言,PowerTrench T10 器件在參數(shù)方面的改進(jìn)提高了中低壓、大電流開關(guān)電源解決方案的效率。通常情況下,開關(guān)損耗比上一代器件最多可降低 50%,而導(dǎo)通損耗可降低 30%-40%。
安森美推出了PowerTrench T10技術(shù)的40V系列和80V系列產(chǎn)品。NTMFWS1D5N08X(80V、1.43mΩ、5mm x 6mm SO8-FL 封裝)和 NTTFSSCH1D3N04XL(40V、1.3mΩ、3.3mm x 3.3mm 源下雙冷卻封裝)為人工智能數(shù)據(jù)中心應(yīng)用中的電源單元(PSU)和中間母線轉(zhuǎn)換器(IBC)提供了同類極佳的效率(FOM)。它們達(dá)到了開放式機(jī)架(Open Rack) V3 規(guī)范要求的 97.5% 的 PSU 效率和 98% 的 IBC 效率。
圖 2 PowerTrench T10 MOSFET 的優(yōu)勢
結(jié)語
人工智能革命已經(jīng)到來,沒有人能夠完全確定它對數(shù)據(jù)中心未來的電力輸送需求究竟意味著什么。不過,可以肯定的是,一系列新的挑戰(zhàn)已經(jīng)出現(xiàn)。房地產(chǎn)資源稀缺和電網(wǎng)的限制使得很難找到容量充足的新地點(diǎn)。關(guān)鍵 IT 方面的總體電力需求激增,給電力成本帶來沉重負(fù)擔(dān)。為了滿足這些需求,數(shù)據(jù)中心業(yè)主不僅要建設(shè)新設(shè)施,還要將現(xiàn)有設(shè)施推向極限,力求實(shí)現(xiàn)每平方英尺兆瓦級的高密度配置。
隨著功率水平肯定會超過 100 kW,功率轉(zhuǎn)換將成為關(guān)鍵重點(diǎn),以實(shí)現(xiàn)高效運(yùn)行,確保散熱,可靠地提高功率密度,并在狹窄的現(xiàn)代數(shù)據(jù)中心中節(jié)省空間。
安森美的 PowerTrench T10 技術(shù)提供了業(yè)界先進(jìn)的 RDS(ON)、更高的功率密度、降低開關(guān)損耗,以及更好的熱性能,從而降低總系統(tǒng)成本。PowerTrench T10 等創(chuàng)新功率半導(dǎo)體技術(shù)將成為未來的關(guān)鍵組成部分。