CRAFT計(jì)劃邁出重要一步
該項(xiàng)目是DARPA快速電路實(shí)現(xiàn)(Circuit Realization At Faster Timescales:CRAFT)計(jì)劃的一部分,該計(jì)劃希望將定制集成電路的設(shè)計(jì)周期從幾年縮短到幾個(gè)月甚至幾周。Celerity團(tuán)隊(duì)首先在Hot Chips 29上展示了該芯片。
去年,在VLSI 2019上,Celerity又回來談?wù)撈涞诙酒腜LL和NoC。演示文稿由密歇根大學(xué)的Austin Rovinski進(jìn)行。
下面我們先對(duì)整個(gè)Celerity SoC進(jìn)行快速概述:它是一個(gè)多核多層(many-core multi-tier)AI加速器??傮w而言,該芯片包括三個(gè)主要層:通用層,大規(guī)模并行層和專用層。為什么要使用分層SoC?這是為了在典型的CPU設(shè)計(jì)上實(shí)現(xiàn)高靈活性和更高的電源效率(盡管效率不及ASIC NPU)。
通用層幾乎可以執(zhí)行任何操作,例如通用計(jì)算,內(nèi)存管理以及控制芯片的其余部分。為此,他們集成了Free Chip Project的五個(gè)高性能亂序RISC-V Rocket內(nèi)核。
下一層是大規(guī)模并行層,它將496個(gè)低功耗定制設(shè)計(jì)的RISC-V內(nèi)核集成到一個(gè)網(wǎng)格中。這些稱為Vanilla-5的自定義內(nèi)核是有序標(biāo)量?jī)?nèi)核,其占用的空間比Rocket內(nèi)核少40倍。最后一層是集成二值神經(jīng)網(wǎng)絡(luò)(BNN)加速器的專業(yè)化層。這三層都是緊密鏈接的,并通過400 MHz運(yùn)行的DDR存儲(chǔ)器接口連接。
Celerity上的Manycore Mesh時(shí)鐘由自定義數(shù)字PLL提供。這是一個(gè)相當(dāng)簡(jiǎn)單的一階ΔΣ頻率數(shù)字轉(zhuǎn)換器(FDC)PLL。該實(shí)現(xiàn)使用了一組16個(gè)DCO ,每個(gè)實(shí)現(xiàn)為環(huán)形振蕩器,其反相元件裝有NAND門FCE,如以下幻燈片中的電路圖所示。這樣做是為了僅使用標(biāo)準(zhǔn)單元來實(shí)現(xiàn)整個(gè)設(shè)計(jì)。為此,整個(gè)數(shù)字PPL是完全合成的并自動(dòng)放置和布線的設(shè)計(jì)。該P(yáng)LL在其16納米芯片上的頻率范圍為10 MHz至3.3 GHz。