Intel 10nm十代酷睿改造轉(zhuǎn)戰(zhàn)M.2:神經(jīng)網(wǎng)絡(luò)推理
Intel 10nm Ice Lake十代酷睿處理器已經(jīng)上市,但它可不僅僅會(huì)用于輕薄筆記本,未來還會(huì)登陸服務(wù)器,而在兩個(gè)月前以色列海法(Intel重要研發(fā)基地),Intel還展示了一款基于10nm Ice Lake打造的Nervana NNP-I(神經(jīng)網(wǎng)絡(luò)推理處理器),但采用了M.2樣式。
Hot Chips 31芯片大會(huì)上,Intel首次公布了這款特殊產(chǎn)品的架構(gòu)細(xì)節(jié)。
這是10nm Ice Lake十代酷睿處理器
這是基于Ice Lake改造的M.2 NNP-I
在無處不AI(AI Everywhere)的指導(dǎo)思想下,Intel正在研究各種各樣的AI軟硬件方案,包括CPU、GPU、FPGA、ASIC等等。
這款新的NNP-I代號(hào)為“Spring Hill”(溫泉山丘),面向數(shù)據(jù)中心領(lǐng)域的輕度AI推理工作,能做成M.2擴(kuò)展卡正是得益于10nm芯片的超小面積。
在原有10nm Ice Lake處理器的基礎(chǔ)上,Intel拿掉了兩個(gè)CPU計(jì)算核心、GPU核芯顯卡,同時(shí)加入12個(gè)推理計(jì)算引擎(ICE),彼此基于硬件同步,同時(shí)每個(gè)ICE有自己的4MB SRAM緩存來減少數(shù)據(jù)轉(zhuǎn)移,并且和兩個(gè)CPU核心共享一致性互連、24MB三級(jí)緩存。
Intel還設(shè)計(jì)了一個(gè)深度學(xué)習(xí)計(jì)算網(wǎng)格(DL Compute Grid),作為張量引擎的它通過數(shù)據(jù)和控制總線與SRAM、VP6 DSP互連,支持FP16、INT8、INT4、INT2、INT1等類型操作,其中DSP還可以處理一些特殊的算法。
CPU核心仍然是標(biāo)準(zhǔn)的Sunny Cove架構(gòu),支持AVX-512、VNNI指令集,可加速卷積神經(jīng)網(wǎng)絡(luò),而完全繼承的FIVR電壓調(diào)節(jié)器可動(dòng)態(tài)調(diào)整功耗,優(yōu)先滿足最需要的硬件單元。
內(nèi)置兩個(gè)LPDDR4X內(nèi)存控制器,整合封裝一顆內(nèi)存芯片與之配合,傳輸帶寬4.2GT/s(68GB/s),并支持帶內(nèi)ECC,但容量未公布。
NNP-I與系統(tǒng)的通信通道走的是PCIe 3.0 x4或者PCIe 3.0 x8,帶寬不是事兒,但沒有用NVMe協(xié)議,只是標(biāo)準(zhǔn)的PCIe界面。
TDP功耗非常靈活,低可至10W,高可達(dá)50W,完全視性能需要而定,作為擴(kuò)展卡也不受M.2 15W的限制。根據(jù)不同功耗配置,INT8整數(shù)能效在2-4.8TOP/s范圍內(nèi)。
Intel表示,10W TDP功耗下跑ResNet500,每分鐘推理數(shù)可達(dá)3600,等于效率高達(dá)4.8TOP/s,還是相當(dāng)高的。
軟件方面,Intel會(huì)提供相應(yīng)的開發(fā)工具,幫助負(fù)載將推理工作完全轉(zhuǎn)移到加速器上,完成后再通知至強(qiáng)CPU進(jìn)行下一步處理,從而使得至強(qiáng)CPU不再需要通過PCIe總線和其他加速器彼此通信、轉(zhuǎn)移數(shù)據(jù),大大節(jié)省計(jì)算資源和功耗。
Intel NNP-I目前已經(jīng)試產(chǎn),將在年底投入規(guī)模量產(chǎn)并出貨,而且后續(xù)還有兩代新品正在設(shè)計(jì)中……