國(guó)內(nèi)計(jì)算芯片新突破,AI將顛覆老架構(gòu)
掃描二維碼
隨時(shí)隨地手機(jī)看文章
物聯(lián)網(wǎng)的英文名為“the Internet of things”,簡(jiǎn)稱IoT。它是將各種信息傳感設(shè)備與互聯(lián)網(wǎng)結(jié)合起來(lái)而形成的巨大網(wǎng)絡(luò),也是繼計(jì)算機(jī)、互聯(lián)網(wǎng)與移動(dòng)通信網(wǎng)之后的又一次信息產(chǎn)業(yè)浪潮。物聯(lián)網(wǎng)主要通過射頻識(shí)別、紅外感應(yīng)器、全球定位系統(tǒng)、激光掃描器等信息傳感設(shè)備,按約定的協(xié)議將所有的“物”(小到手表、鑰匙,大到汽車、樓房等)與互聯(lián)網(wǎng)相連,進(jìn)行信息交換和通信,以實(shí)現(xiàn)對(duì)物品的智能化識(shí)別、定位、跟蹤、監(jiān)控和管理。
在這樣的背景下,存算一體(Computing In Memory,內(nèi)存內(nèi)計(jì)算)AI芯片應(yīng)運(yùn)而生。目前,不少國(guó)際上的領(lǐng)先企業(yè)和研究機(jī)構(gòu)正在致力于各種新型存儲(chǔ)器的研究,其中一個(gè)很大的驅(qū)動(dòng)力就是希望能夠?qū)崿F(xiàn)具有更高效率的存算一體系統(tǒng),而在這其中,AI的融入也是一大趨勢(shì)。這些使得計(jì)算+存儲(chǔ)+AI的融合發(fā)展成為了一大方向。
不僅是在國(guó)際上,最近幾年,我國(guó)本土的一些企業(yè)和科研院所也在致力于這方面的研究工作。就在上周,合肥恒爍半導(dǎo)體科技公司與中國(guó)科大團(tuán)隊(duì)歷時(shí)兩年共同研發(fā)的基于NOR閃存架構(gòu)的存算一體AI芯片系統(tǒng)演示順利完成。這是國(guó)際領(lǐng)先的超低功耗存算一體的人工智能芯片。據(jù)悉,該芯片是一款具有邊緣計(jì)算和推理能力的AI芯片,能實(shí)時(shí)檢測(cè)通過攝像頭拍攝的人臉頭像并給出計(jì)算概率,可廣泛應(yīng)用于森林防火中的人臉識(shí)別與救援、心電圖的實(shí)時(shí)監(jiān)測(cè)、人工智能在人臉識(shí)別上的硬件解決方案等。
這也是我國(guó)本土企業(yè)在基于NOR閃存架構(gòu)的存算一體AI芯片領(lǐng)域的又一次突破,實(shí)際上,在該領(lǐng)域,恒爍半導(dǎo)體并不是唯一一家,還有其它一些企業(yè)也在進(jìn)行著基于NOR閃存架構(gòu)的低功耗AI芯片的研究工作。那么,作為一種傳統(tǒng)的、非前沿的存儲(chǔ)技術(shù),NOR閃存架構(gòu)有怎樣的特點(diǎn)和優(yōu)勢(shì),能夠使得這些企業(yè)對(duì)其投入資源和人力,進(jìn)行相應(yīng)的低功耗AI芯片和系統(tǒng)研發(fā)呢?
存算一體的優(yōu)勢(shì)
在談基于NOR閃存架構(gòu)AI芯片的特點(diǎn)和優(yōu)勢(shì)之前,先來(lái)看一下存算一體芯片的優(yōu)勢(shì)及其能夠解決的主要問題。
目前來(lái)看,不論是PC還是超算,處理器和存儲(chǔ)芯片都是分離的,這就是馮諾依曼50多年前確立的計(jì)算架構(gòu)。隨著技術(shù)的發(fā)展,存儲(chǔ)計(jì)算分離的架構(gòu)瓶頸越來(lái)越明顯。
一般芯片的設(shè)計(jì)思路是增加大量的并行計(jì)算單元,比如上千個(gè)AI卷積單元,這樣,需要調(diào)用的存儲(chǔ)資源也在增大,然而,在傳統(tǒng)的計(jì)算架構(gòu)當(dāng)中,存儲(chǔ)一直是有限且稀缺的資源,隨著運(yùn)算單元的增加,每個(gè)單元能夠使用的存儲(chǔ)器的帶寬和大小將逐漸減小,而隨著人工智能時(shí)代的到來(lái),這種矛盾顯得愈加突出,特別是對(duì)于物聯(lián)網(wǎng)來(lái)說(shuō),網(wǎng)絡(luò)的每一層,現(xiàn)有權(quán)重和每個(gè)AI訓(xùn)練示例的元素都被加載到處理器的寄存器中,然后相乘,并將結(jié)果寫回到存儲(chǔ)器中。這樣,性能瓶頸就不是在計(jì)算一側(cè)了,而是處理器和存儲(chǔ)器陣列之間的帶寬。存儲(chǔ)器和處理器之間的這種分離是馮·諾依曼架構(gòu)的定義特征之一,并且存在于幾乎所有現(xiàn)代計(jì)算系統(tǒng)中。
這種“存儲(chǔ)墻”的高起正在阻礙著AI產(chǎn)業(yè)的發(fā)展,可以說(shuō),存儲(chǔ)器是AI芯片發(fā)展的最大瓶頸。
在很多AI推理運(yùn)算中,90%以上的運(yùn)算資源都消耗在數(shù)據(jù)搬運(yùn)的過程中。芯片內(nèi)部到外部的帶寬,以及片上緩存空間限制了運(yùn)算的效率。因此,在業(yè)界和學(xué)術(shù)界,越來(lái)越多的人認(rèn)為存算一體化是未來(lái)的趨勢(shì),可以很好地解決“存儲(chǔ)墻”問題。
如果能夠讓計(jì)算和內(nèi)存更緊密地結(jié)合在一起,甚至是在內(nèi)存內(nèi)進(jìn)行計(jì)算,就可以大幅提升數(shù)據(jù)的傳輸效率,同時(shí)節(jié)省更多的電能,因?yàn)樵趦?nèi)存和計(jì)算之間不再需要往返太多次數(shù),一切處理過程都再同一芯片內(nèi)完成了。
分類
為了應(yīng)對(duì)物聯(lián)網(wǎng)以及存算一體的應(yīng)用需求,各種新型的、傳統(tǒng)的存儲(chǔ)技術(shù)和器件紛紛登場(chǎng),想在這些新興應(yīng)用方面盡量地施展出自己的才華。
過去50年中,SRAM、DRAM和Flash已經(jīng)成為存儲(chǔ)器的主力,這些存儲(chǔ)結(jié)構(gòu)在往更小的幾何結(jié)構(gòu)微縮的過程中都存在問題,很重要的原因在于它們都是平面結(jié)構(gòu),而新的存儲(chǔ)技術(shù),如基于電阻開關(guān)的存儲(chǔ)技術(shù)是金屬層結(jié)構(gòu),消除了許多制造問題。然而,由于DRAM和Flash技術(shù)已經(jīng)非常成熟,成本又很低。所以,它們?cè)诖嫠阋惑w方面依然有獨(dú)到的優(yōu)勢(shì),也正在被一些企業(yè)所采用
目前來(lái)看,新型的存儲(chǔ)技術(shù)主要包括相變存儲(chǔ)器(PCM)、鐵電存儲(chǔ)器(FeRAM)、磁阻RAM(MRAM)、電阻RAM(RRAM或 ReRAM)、自旋轉(zhuǎn)移力矩RAM(STT-RAM)、導(dǎo)電橋RAM(CBRAM),以及氧化物電阻存儲(chǔ)器(OxRAM)等?;谶@些的存算一體研究或多或少地都在進(jìn)行著,相應(yīng)的成果也經(jīng)常見諸于報(bào)端。以上這些都是新技術(shù),目前來(lái)看,它們的主要問題就是成本,以及生態(tài)系統(tǒng)的完整度,還需要一些發(fā)展時(shí)間才能成氣候。
而從存儲(chǔ)與計(jì)算的結(jié)合方式來(lái)看,存算一體又可以分為兩大類:一是在DRAM中植入邏輯計(jì)算單元,被稱為內(nèi)存內(nèi)處理或者近數(shù)據(jù)計(jì)算,這種方式非常適合云端的大數(shù)據(jù)和神經(jīng)網(wǎng)絡(luò)訓(xùn)練等應(yīng)用;二是存儲(chǔ)和計(jì)算完全結(jié)合在一起,存儲(chǔ)器件也即計(jì)算單元,如采用基于NOR閃存架構(gòu)的存算一體AI芯片,其主要特點(diǎn)是能耗低、運(yùn)算效率高、速度快且成本低,這種形式比較適合邊緣側(cè)的神經(jīng)網(wǎng)絡(luò)推理等應(yīng)用。
NOR閃存架構(gòu)的優(yōu)勢(shì)
基于NOR閃存架構(gòu)的存算一體AI芯片,利用NOR Flash的模擬特性,可直接在存儲(chǔ)單元內(nèi)進(jìn)行全精度矩陣卷積運(yùn)算(乘加運(yùn)算)。規(guī)避了數(shù)據(jù)在ALU和存儲(chǔ)器之間來(lái)回傳輸?shù)钠款i,從而使功耗大幅降低、提高了運(yùn)算效率。
其Flash存儲(chǔ)單元可以存儲(chǔ)神經(jīng)網(wǎng)絡(luò)的權(quán)重參數(shù),同時(shí)還可以完成和此權(quán)重相關(guān)的乘加法運(yùn)算,從而將乘加法運(yùn)算和存儲(chǔ)融合到了一個(gè)Flash單元里面。例如,100萬(wàn)個(gè)Flash單元可以存儲(chǔ)100萬(wàn)個(gè)權(quán)重參數(shù),同時(shí)還可以并行完成100萬(wàn)次乘加法運(yùn)算。
在這樣的芯片里面,深度學(xué)習(xí)網(wǎng)絡(luò)可以被映射到多個(gè)Flash陣列,這些Flash陣列不僅可以存儲(chǔ)數(shù)據(jù),其深度學(xué)習(xí)網(wǎng)絡(luò)同時(shí)還能完成AI推理,注意,這個(gè)過程是不需要額外邏輯計(jì)算電路的,一切處理都在這一塊芯片內(nèi)完成。相比于傳統(tǒng)的馮諾依曼架構(gòu)深度學(xué)習(xí)芯片,這種的運(yùn)算效率非常高,而且成本低廉,因?yàn)槭∪チ薉RAM、SRAM以及片上并行計(jì)算單元,從而簡(jiǎn)化了系統(tǒng)設(shè)計(jì)。
目前來(lái)看,這種基于NOR閃存架構(gòu)的存算一體AI芯片,其主要應(yīng)用領(lǐng)域就是對(duì)成本和運(yùn)算效率(特別是功耗)敏感的應(yīng)用,如邊緣側(cè)的低功耗、低成本語(yǔ)音識(shí)別等。而隨著人工智能和物聯(lián)網(wǎng)的發(fā)展,它還可以拓展更多的應(yīng)用場(chǎng)景。
結(jié)語(yǔ)
無(wú)論是新型存儲(chǔ)技術(shù),還是以NOR閃存為代表的老牌技術(shù),在發(fā)展存算一體AI芯片方面,都需要不斷完善生態(tài)系統(tǒng)建設(shè),才能使整個(gè)產(chǎn)業(yè)發(fā)展起來(lái)。
因此,除了存儲(chǔ)和計(jì)算技術(shù)本身之外,行業(yè)相關(guān)的接口標(biāo)準(zhǔn)跟進(jìn)特別重要,特別是對(duì)于以存儲(chǔ)為基礎(chǔ)的新型應(yīng)用來(lái)說(shuō),更加重要。另外,由于芯片內(nèi)部集中了越來(lái)越多的功能塊,片內(nèi)總線和片內(nèi)網(wǎng)絡(luò)系統(tǒng)成為了一個(gè)新的課題,目前,這方面的研究和新技術(shù)越來(lái)越受到業(yè)界的重視,新的技術(shù)和IP也陸續(xù)推出。