NVIDIA三款中國特供AI GPU來了:精準(zhǔn)縮水 美國放行
2月2日消息,美國對(duì)中國半導(dǎo)體技術(shù)的封鎖越來越嚴(yán)格,但是在商言商,NVIDIA始終沒有放棄中國市場(chǎng),一直想盡辦法打造符合美國出口管制的中國特供版本,尤其是AI GPU,第二波三款正在到來。
最早針對(duì)美國禁售A100、H100,NVIDIA設(shè)計(jì)了特供版A800、H800,只是閹割傳輸帶寬,算力絲毫不減。
但是很快,美國出臺(tái)新規(guī),算力也做了限制,A800、H800甚至是RTX 4090就都沒法賣了。
為此,NVIDIA在游戲卡市場(chǎng)設(shè)計(jì)了RTX 4090D,已經(jīng)低調(diào)上市。
而在AI加速領(lǐng)域,NVIDIA設(shè)計(jì)了H20、L20、L2,原計(jì)劃2023年就發(fā)布出貨,但為了完全符合出口管制,推遲了一段時(shí)間。
H20基于Hopper架構(gòu),是一款高性能的AI訓(xùn)練卡,正是中國客戶亟需的,根據(jù)最新報(bào)道它已經(jīng)開始小批量供貨給中國,第二季度上量。
H20的定價(jià)據(jù)稱僅為1.2-1.5萬美元,比華為昇騰910B 1.7萬美元要低不少,用心昭然若揭。
L20、L2均基于Ada Lovelace架構(gòu),均為AI推理卡,暫不清楚是否已經(jīng)供貨,可能要稍等等,對(duì)于中國客戶而言也不是非常迫切的需要。
目前,三款新卡的最終規(guī)格已經(jīng)確定,和之前曝光的基本一致。
H20的規(guī)格還是比較強(qiáng)的,INT8/FP8 Tensor算力為296T,BF16/FP16 Tensor算力為148T,TF32 Tensor算力為74T,F(xiàn)P32算力為44T,F(xiàn)P64算力為1T,功耗400W。
它具備60MB二級(jí)緩存、96GB HBM3內(nèi)存,帶寬4TB/s,支持7路NVDEC、7路NVJPEG視頻引擎,還有著PCIe 5.0 x16系統(tǒng)接口、900GB/s NVLink互聯(lián)帶寬,支持最多7個(gè)MIG。
相比于H200,它少了45GB HBM3,算力更是閹割得七零八落,INT8/FP8、BF16/FP16、TF32都少了多達(dá)93%,F(xiàn)P64少了足足97%,只有FP32只少了35%。
但即便如此,H20 FP32性能依然不如華為昇騰910B,這也是后者最大的優(yōu)勢(shì)。
H20還可以八卡并行,組成一套HGX服務(wù)器,價(jià)格大約20萬美元,而之前八塊H800服務(wù)器需要大約28萬美元。
L20是雙插槽全高全長PCIe擴(kuò)展卡,搭載96MB二級(jí)緩存、48GB GDDR6 ECC內(nèi)存,帶寬864GB/s,INT8/FP8算力為239T,更高精度逐級(jí)減半,但不支持FP64,功耗275W。
L2則是單插槽半高卡,只有36MB二級(jí)緩存、24GB GDDR6 ECC,帶寬300GB/s,算力進(jìn)一步降低INT8/FP8 193T,F(xiàn)P32額外砍了一半只有24.1T。