英特爾利用神經(jīng)網(wǎng)絡(luò)芯片推倒了人工智能技術(shù)
掃描二維碼
隨時(shí)隨地手機(jī)看文章
(文章來(lái)源:教育新聞網(wǎng))
在今年的英特爾AI峰會(huì)上,該芯片制造商展示了其第一代神經(jīng)網(wǎng)絡(luò)處理器(NNP):用于訓(xùn)練的NNP-T和用于推理的NNP-I。兩條產(chǎn)品線(xiàn)現(xiàn)在都已投入生產(chǎn),并已交付給最初的客戶(hù),活動(dòng)中出現(xiàn)了其中的兩家,分別為Facebook和百度,以贊揚(yáng)新的切片機(jī)。
專(zhuān)用的NNP設(shè)備代表了英特爾迄今為止對(duì)AI市場(chǎng)的最深推動(dòng),挑戰(zhàn)了Nvidia,AMD和一系列針對(duì)專(zhuān)門(mén)為人工智能部署專(zhuān)用芯片的客戶(hù)的初創(chuàng)公司。就NNP產(chǎn)品而言,該客戶(hù)群是由超大型公司(如Google,F(xiàn)acebook,Amazon等)固定的,這些公司的業(yè)務(wù)現(xiàn)在都由人工智能提供支持。
三年前,英特爾收購(gòu)了Nervana Systems時(shí),甚至沒(méi)有設(shè)想到推論線(xiàn)NNP-I。那時(shí),饒和他的團(tuán)隊(duì)正在開(kāi)發(fā)一種訓(xùn)練芯片,該芯片只是在側(cè)面進(jìn)行推斷。它不被認(rèn)為是值得專(zhuān)業(yè)化的東西。當(dāng)然,現(xiàn)在,推理已被普遍認(rèn)為是一種獨(dú)特的工作負(fù)載,它對(duì)低延遲,低功耗和特殊數(shù)學(xué)有其特殊的需求。
第一代推理處理器NNP-I 1000采用Intel的10納米工藝實(shí)現(xiàn),根據(jù)SKU的不同,其功耗在10瓦至50瓦之間。它由12個(gè)推理計(jì)算引擎和2個(gè)IA CPU內(nèi)核組成,這些內(nèi)核通過(guò)高速緩存一致性互連掛鉤。它可以執(zhí)行混合精度數(shù)學(xué),特別強(qiáng)調(diào)使用INT8進(jìn)行的低精度計(jì)算。NNP-I 1000提供兩種產(chǎn)品:NNP I-1100(包含一個(gè)NNP-I芯片的12瓦M(jìn).2卡)和NNP I-1300(由以下設(shè)備供電的75瓦PCI-Express卡)兩個(gè)籌碼。NNP I-1100提供高達(dá)50 TOPS,而NNP I-1300提供高達(dá)170 TOPS。
Rao聲稱(chēng),一旦將功率考慮進(jìn)去,就根據(jù)MLPerf基準(zhǔn)測(cè)試,就每瓦性能而言,NNP-I將成為推理領(lǐng)導(dǎo)者。他說(shuō),它還提供了非凡的密度,“您可以將每秒最多的推論推入單個(gè)機(jī)架單元中?!蓖ㄟ^(guò)英特爾的測(cè)量,它還提供了Nvidia T4 GPU的計(jì)算密度的3.7倍。結(jié)果,Rao說(shuō):“我們可以運(yùn)行更大的模型,更復(fù)雜的模型,并并行運(yùn)行數(shù)十個(gè)模型。”
為了支持?jǐn)?shù)據(jù)中心(尤其是超大規(guī)模數(shù)據(jù)中心)所需的可伸縮性級(jí)別,英特爾已經(jīng)開(kāi)發(fā)了與此類(lèi)環(huán)境相關(guān)的解決方案堆棧。特別是,該公司開(kāi)發(fā)了使用Kubernetes掛鉤將NNP-I應(yīng)用程序容器化的軟件。它還提供了支持功能即服務(wù)(FaaS)模型的參考軟件堆棧,該模型是基于云的推理的新興范例。
Facebook的AI主管Misha Smelyanskiy加入Rao,解釋說(shuō)其Glow機(jī)器學(xué)習(xí)編譯器已移植到NNP-I硬件上,這暗示著這家社交媒體巨頭已開(kāi)始至少在其某些數(shù)據(jù)中心中安裝這些設(shè)備。Smelyanskiy沒(méi)有提供有關(guān)這些部署范圍的任何詳細(xì)信息,但確實(shí)提到了新硬件可以提供的一些關(guān)鍵推理應(yīng)用程序,包括照片標(biāo)記,語(yǔ)言翻譯,內(nèi)容推薦以及垃圾郵件和虛假帳戶(hù)檢測(cè)。Smelyanskiy解釋說(shuō),這些針對(duì)Facebook的專(zhuān)用ASIC的價(jià)值在于,它們“使ML工作負(fù)載的執(zhí)行具有高性能和高能效性?!?/p>
NNP-T 1000 ASIC完全是另一種芯片,提供了更大的計(jì)算能力。它由多達(dá)24個(gè)Tensor處理核心(支持FP32和bfloat16數(shù)字格式),55 MB至60 MB的片上SRAM,32 GB的高帶寬存儲(chǔ)器(HBM)和片間鏈接(ICL)組成16112 Gb /秒的通道數(shù)ASIC以?xún)煞N尺寸形式提供:PCI Express卡(NNP-T 1300)或夾層卡(NNP-T 14000)。PCI-Express卡的最大功耗為300瓦,而Mezzanine卡的最大功耗為375瓦。
ICL鏈接可用于跨越系統(tǒng)的多個(gè)級(jí)別,用作跨節(jié)點(diǎn)中的卡,機(jī)架中的節(jié)點(diǎn)和POD中的機(jī)架的無(wú)縫連接結(jié)構(gòu)。一個(gè)節(jié)點(diǎn)最多可以構(gòu)建八個(gè)卡,并且可以連接這些卡以構(gòu)建多機(jī)架POD。在AI峰會(huì)活動(dòng)上,他們演示了一個(gè)帶有480個(gè)NNP-T卡的10機(jī)架POD,無(wú)需使用開(kāi)關(guān)。結(jié)構(gòu)是使NNP-T平臺(tái)能夠大規(guī)模使用以訓(xùn)練這些數(shù)十億參數(shù)模型(在合理的時(shí)間內(nèi))的關(guān)鍵設(shè)計(jì)元素。Rao解釋說(shuō):“橫向擴(kuò)展可能是培訓(xùn)中最重要的問(wèn)題,任何新的培訓(xùn)體系結(jié)構(gòu)都必須考慮這一點(diǎn)?!苯柚?2卡NNP-T機(jī)架,英特爾在標(biāo)準(zhǔn)圖像分類(lèi)模型ResNet-50和自然語(yǔ)言處理的高級(jí)模型BERT上展示了95%的縮放效率。
? ? ?