英特爾利用神經(jīng)網(wǎng)絡(luò)芯片推倒了人工智能技術(shù)

時(shí)間：2020-05-15 18:45:01

關(guān)鍵字：神經(jīng)網(wǎng)絡(luò) 英特爾網(wǎng)絡(luò)芯片人工智能技術(shù)

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀] （文章來(lái)源：教育新聞網(wǎng)）在今年的英特爾AI峰會(huì)上，該芯片制造商展示了其第一代神經(jīng)網(wǎng)絡(luò)處理器(NNP)：用于訓(xùn)練的NNP-T和用于推理的NNP-I。兩條產(chǎn)品線(xiàn)現(xiàn)在都已投入生產(chǎn)，并已交付給

（文章來(lái)源：教育新聞網(wǎng)）

在今年的英特爾AI峰會(huì)上，該芯片制造商展示了其第一代神經(jīng)網(wǎng)絡(luò)處理器(NNP)：用于訓(xùn)練的NNP-T和用于推理的NNP-I。兩條產(chǎn)品線(xiàn)現(xiàn)在都已投入生產(chǎn)，并已交付給最初的客戶(hù)，活動(dòng)中出現(xiàn)了其中的兩家，分別為Facebook和百度，以贊揚(yáng)新的切片機(jī)。

專(zhuān)用的NNP設(shè)備代表了英特爾迄今為止對(duì)AI市場(chǎng)的最深推動(dòng)，挑戰(zhàn)了Nvidia，AMD和一系列針對(duì)專(zhuān)門(mén)為人工智能部署專(zhuān)用芯片的客戶(hù)的初創(chuàng)公司。就NNP產(chǎn)品而言，該客戶(hù)群是由超大型公司(如Google，F(xiàn)acebook，Amazon等)固定的，這些公司的業(yè)務(wù)現(xiàn)在都由人工智能提供支持。

三年前，英特爾收購(gòu)了Nervana Systems時(shí)，甚至沒(méi)有設(shè)想到推論線(xiàn)NNP-I。那時(shí)，饒和他的團(tuán)隊(duì)正在開(kāi)發(fā)一種訓(xùn)練芯片，該芯片只是在側(cè)面進(jìn)行推斷。它不被認(rèn)為是值得專(zhuān)業(yè)化的東西。當(dāng)然，現(xiàn)在，推理已被普遍認(rèn)為是一種獨(dú)特的工作負(fù)載，它對(duì)低延遲，低功耗和特殊數(shù)學(xué)有其特殊的需求。

第一代推理處理器NNP-I 1000采用Intel的10納米工藝實(shí)現(xiàn)，根據(jù)SKU的不同，其功耗在10瓦至50瓦之間。它由12個(gè)推理計(jì)算引擎和2個(gè)IA CPU內(nèi)核組成，這些內(nèi)核通過(guò)高速緩存一致性互連掛鉤。它可以執(zhí)行混合精度數(shù)學(xué)，特別強(qiáng)調(diào)使用INT8進(jìn)行的低精度計(jì)算。NNP-I 1000提供兩種產(chǎn)品：NNP I-1100(包含一個(gè)NNP-I芯片的12瓦M(jìn).2卡)和NNP I-1300(由以下設(shè)備供電的75瓦PCI-Express卡)兩個(gè)籌碼。NNP I-1100提供高達(dá)50 TOPS，而NNP I-1300提供高達(dá)170 TOPS。

Rao聲稱(chēng)，一旦將功率考慮進(jìn)去，就根據(jù)MLPerf基準(zhǔn)測(cè)試，就每瓦性能而言，NNP-I將成為推理領(lǐng)導(dǎo)者。他說(shuō)，它還提供了非凡的密度，“您可以將每秒最多的推論推入單個(gè)機(jī)架單元中?！蓖ㄟ^(guò)英特爾的測(cè)量，它還提供了Nvidia T4 GPU的計(jì)算密度的3.7倍。結(jié)果，Rao說(shuō)：“我們可以運(yùn)行更大的模型，更復(fù)雜的模型，并并行運(yùn)行數(shù)十個(gè)模型。”

為了支持?jǐn)?shù)據(jù)中心(尤其是超大規(guī)模數(shù)據(jù)中心)所需的可伸縮性級(jí)別，英特爾已經(jīng)開(kāi)發(fā)了與此類(lèi)環(huán)境相關(guān)的解決方案堆棧。特別是，該公司開(kāi)發(fā)了使用Kubernetes掛鉤將NNP-I應(yīng)用程序容器化的軟件。它還提供了支持功能即服務(wù)(FaaS)模型的參考軟件堆棧，該模型是基于云的推理的新興范例。

Facebook的AI主管Misha Smelyanskiy加入Rao，解釋說(shuō)其Glow機(jī)器學(xué)習(xí)編譯器已移植到NNP-I硬件上，這暗示著這家社交媒體巨頭已開(kāi)始至少在其某些數(shù)據(jù)中心中安裝這些設(shè)備。Smelyanskiy沒(méi)有提供有關(guān)這些部署范圍的任何詳細(xì)信息，但確實(shí)提到了新硬件可以提供的一些關(guān)鍵推理應(yīng)用程序，包括照片標(biāo)記，語(yǔ)言翻譯，內(nèi)容推薦以及垃圾郵件和虛假帳戶(hù)檢測(cè)。Smelyanskiy解釋說(shuō)，這些針對(duì)Facebook的專(zhuān)用ASIC的價(jià)值在于，它們“使ML工作負(fù)載的執(zhí)行具有高性能和高能效性?！?/p>

NNP-T 1000 ASIC完全是另一種芯片，提供了更大的計(jì)算能力。它由多達(dá)24個(gè)Tensor處理核心(支持FP32和bfloat16數(shù)字格式)，55 MB至60 MB的片上SRAM，32 GB的高帶寬存儲(chǔ)器(HBM)和片間鏈接(ICL)組成16112 Gb /秒的通道數(shù)ASIC以?xún)煞N尺寸形式提供：PCI Express卡(NNP-T 1300)或夾層卡(NNP-T 14000)。PCI-Express卡的最大功耗為300瓦，而Mezzanine卡的最大功耗為375瓦。

ICL鏈接可用于跨越系統(tǒng)的多個(gè)級(jí)別，用作跨節(jié)點(diǎn)中的卡，機(jī)架中的節(jié)點(diǎn)和POD中的機(jī)架的無(wú)縫連接結(jié)構(gòu)。一個(gè)節(jié)點(diǎn)最多可以構(gòu)建八個(gè)卡，并且可以連接這些卡以構(gòu)建多機(jī)架POD。在AI峰會(huì)活動(dòng)上，他們演示了一個(gè)帶有480個(gè)NNP-T卡的10機(jī)架POD，無(wú)需使用開(kāi)關(guān)。結(jié)構(gòu)是使NNP-T平臺(tái)能夠大規(guī)模使用以訓(xùn)練這些數(shù)十億參數(shù)模型(在合理的時(shí)間內(nèi))的關(guān)鍵設(shè)計(jì)元素。Rao解釋說(shuō)：“橫向擴(kuò)展可能是培訓(xùn)中最重要的問(wèn)題，任何新的培訓(xùn)體系結(jié)構(gòu)都必須考慮這一點(diǎn)?！苯柚?2卡NNP-T機(jī)架，英特爾在標(biāo)準(zhǔn)圖像分類(lèi)模型ResNet-50和自然語(yǔ)言處理的高級(jí)模型BERT上展示了95%的縮放效率。
? ? ?