這家公司僅用7個(gè)月就設(shè)計(jì)了一款RISC-V AI芯片,能耗和面積比Arm架構(gòu)好很多!
誕生于加州大學(xué)伯克利分校的RISC-V開(kāi)源指令集近來(lái)在中國(guó)關(guān)注度非常高。5月,上海發(fā)布國(guó)內(nèi)首個(gè)RISC-V的支持政策。9月,中國(guó)RISC-V產(chǎn)業(yè)聯(lián)盟在上海成立。11月,中國(guó)開(kāi)放指令生態(tài)(RISC-V)聯(lián)盟在烏鎮(zhèn)宣布成立。有意思的是,中國(guó)最早做RISC-V的公司選擇了落戶深圳,并且僅用7個(gè)月就設(shè)計(jì)出了一款基于RISC-V指令集的AI芯片,能耗和面積明顯優(yōu)于同級(jí)別Arm架構(gòu)芯片,更讓行業(yè)吃驚的是該款芯片一次性流片成功。這是否意味著在AI和IoT領(lǐng)域Arm即將面臨一場(chǎng)與新興技術(shù)的硬戰(zhàn)?
僅用7個(gè)月完成芯片研發(fā)的兩大關(guān)鍵
僅用7個(gè)月就完成從零開(kāi)始設(shè)計(jì)驗(yàn)證到交付流片全部研發(fā)工作的公司叫做睿思芯科,是2017年在美國(guó)硅谷初創(chuàng)的OURS公司在深圳設(shè)立的中資公司,OURS創(chuàng)始人兼CEO譚章熹在清華大學(xué)電子工程系獲得學(xué)士學(xué)歷,后前往加州大學(xué)伯克利分校深造,師從新晉圖靈獎(jiǎng)得主David Patterson,取得了計(jì)算機(jī)科學(xué)博士。我們知道,RISC-V就出自2017 年新晉圖靈獎(jiǎng)得主David Patterson之手,這意味著譚章熹博士成了離RISC-V技術(shù)最近的中國(guó)人。
譚博士接受專訪時(shí)表示:“說(shuō)我們是中國(guó)最早做RISC-V指令集芯片的公司應(yīng)該不會(huì)有爭(zhēng)議,之所以把中資公司設(shè)立在深圳是因?yàn)槲矣X(jué)得無(wú)論從環(huán)境、文化還是人才的角度,深圳和我們最匹配。我們基于RISC-V指令集的AI芯片Pygmy僅用7個(gè)月就完成了從零開(kāi)始設(shè)計(jì)到交付流片的工作。”
譚博士提到的Pygmy AI芯片并沒(méi)有隆重的發(fā)布會(huì),首次亮相是在本月初Patterson教授烏鎮(zhèn)世界互聯(lián)網(wǎng)大會(huì)的演講中,Pygmy也在大會(huì)期間展出。據(jù)了解,Pygmy是全球最小的鸚鵡。譚章熹透露,睿思芯科的第二代架構(gòu)叫Pocket,是世界上第二小的鸚鵡。不難發(fā)現(xiàn),睿思芯科的架構(gòu)和產(chǎn)品都以鳥(niǎo)的種類命名,但新一代產(chǎn)品命名使用的鳥(niǎo)的體型比上一代大,譚博士希望公司的產(chǎn)品能覆蓋越來(lái)越大的市場(chǎng)空間。
譚章熹和他的博士導(dǎo)師David Patterson
睿思芯科的產(chǎn)品命名很有特色,但更吸引人關(guān)注的是其如何在7個(gè)月內(nèi)完成全部研發(fā)工作。譚章熹表示:“之所以能在不到一年的時(shí)間完成全部研發(fā)工作,一個(gè)很關(guān)鍵的因素就是RISC-V指令集。我們知道微處理器的設(shè)計(jì)很難,因?yàn)檐浖陀布涌诘牡胤胶芏?,比如OS、SW framework、模擬器等,不過(guò)我們依靠RISC-V的生態(tài),生態(tài)中的開(kāi)發(fā)工具、工具鏈等幫助我們縮短了芯片的校驗(yàn)時(shí)間。另一個(gè)很關(guān)鍵的因素就是我們有經(jīng)驗(yàn)豐富的工程師,我們的工程師對(duì)RISC-V更深的理解以及知道設(shè)計(jì)芯片的關(guān)鍵對(duì)縮短芯片研發(fā)的時(shí)間也非常關(guān)鍵?!?/p>
到底是架構(gòu)更重要還是經(jīng)驗(yàn)豐富的工程師更加重要?譚章熹表示兩者同等重要,當(dāng)然睿思芯科的芯片量產(chǎn)也會(huì)有必要的周期。他同時(shí)指出,想要在7個(gè)月內(nèi)完成芯片的全部設(shè)計(jì)工作并不容易,除了需要對(duì)指令集有深刻理解以及有經(jīng)驗(yàn)豐富的工程師明白如何做芯片業(yè)非常關(guān)鍵,軟件也非常關(guān)鍵。特別對(duì)AI而言,AI算法的不斷演進(jìn)對(duì)芯片算力和和內(nèi)存的要求也會(huì)不斷提升,因此芯片需要具備快速迭代的能力,此時(shí)架構(gòu)和軟件都將發(fā)揮關(guān)鍵的作用。
能耗和面積明顯優(yōu)于同級(jí)別Arm架構(gòu)芯片
時(shí)間上Pygmy僅用7個(gè)月就完成了全部研發(fā)工作,但芯片的性能卻很強(qiáng),根據(jù)睿思芯科的說(shuō)法,Pygmy對(duì)比同級(jí)別的Arm芯片,能耗下降85%,面積減少80%,相當(dāng)于用一般的32位處理器的面積和功耗就實(shí)現(xiàn)了64位處理器的性能。具體看,Pygmy基于64位RISC-V指令集,使用臺(tái)積電28nm工藝,采用多核異構(gòu)架構(gòu),其中CPU架構(gòu)是睿思芯科基于RISC-V指令集設(shè)計(jì)而成,并針對(duì)多種AI應(yīng)用進(jìn)行了優(yōu)化,還有12個(gè)高度可編程AI加速引擎,同樣基于睿思芯科自定義開(kāi)發(fā)的RISC-V矢量擴(kuò)展指令集設(shè)計(jì)而成。
性能方面,Pygmy主控CPU具有64位位寬,主頻600 MHz,基于RV64G指令集,支持雙精度浮點(diǎn)運(yùn)算,具備乘法器、除法器、開(kāi)方器等;12個(gè)AI內(nèi)核均為高度可編程,可以支持各種主流AI算法。能耗方面,主控CPU功耗僅為10mW,通過(guò)前端/后段的全棧設(shè)計(jì),待機(jī)設(shè)計(jì)功耗不超過(guò)1mW。并且,Pygmy在Int8時(shí)可實(shí)現(xiàn)4 TOPS/watt,作為對(duì)比,Google第一代28 nm TPU 92 TOPs 超過(guò) 40 watt,差不多2.3 TOPS/watt。另外,提供Pygmy芯片的同時(shí)睿思芯科還開(kāi)發(fā)了編譯器、SDK、工具鏈,基于GCC、LLVM等開(kāi)源實(shí)現(xiàn),可以支撐Pygmy用戶更好的進(jìn)行二次開(kāi)發(fā)。
Pygmy芯片
需要指出的是,雖然上面提到Pygmy對(duì)比同級(jí)別Arm芯片能耗和面積都有超過(guò)80%的下降,但因?yàn)槟壳皼](méi)有Arm芯片與Pygmy完全類似,因此作對(duì)比的是Pygmy主控CPU。那么,Pygmy到底是如何實(shí)現(xiàn)的低功耗和高效能?譚章熹表示:“最主要的還是因?yàn)镽ISC-V架構(gòu)的精髓——簡(jiǎn)單、面積小、速度快。因此我們不僅可以做架構(gòu)創(chuàng)新,也可以把我們的芯片做的最簡(jiǎn)單和高效,我們剛開(kāi)始設(shè)計(jì)Pygmy的時(shí)候也沒(méi)想到能得到這么好的成績(jī)?!?/p>
除了架構(gòu)上不需要由復(fù)雜向下精簡(jiǎn),架構(gòu)上的創(chuàng)新也很重要。Pygmy采用了多核異構(gòu)的架構(gòu),譚章熹表示:“通用的CPU也能處理AI的任務(wù),但是效率不高,這時(shí)候就需要有特殊和核心和架構(gòu)來(lái)滿足AI的需求。Pygmy除了有主控CPU還有12個(gè)高度可編程的AI加速引擎,主要針對(duì)神經(jīng)網(wǎng)絡(luò)以及CNN算法進(jìn)行了優(yōu)化,能夠支持AI圖像和語(yǔ)音的應(yīng)用。之所以集成的是12個(gè)可編程AI加速引擎,是和我們芯片的面積有很大的關(guān)系。當(dāng)然12個(gè)加速引擎只代表一個(gè)邊界,根據(jù)不同應(yīng)用的性能及功耗需求,可以配置數(shù)量不同的可編程AI加速引擎,并且我們的團(tuán)隊(duì)能夠在3個(gè)月內(nèi)就完成AI加速引擎核的定制。未來(lái),我們還會(huì)推出能集成更多AI加速引擎的產(chǎn)品?!?需要指出,異構(gòu)架構(gòu)會(huì)帶來(lái)芯片編程復(fù)雜性的增高。
另外,AI芯片選擇支持的數(shù)據(jù)類型也非常重要,因?yàn)槟壳澳姆N數(shù)據(jù)類型最適合深度學(xué)習(xí)還沒(méi)有定論。據(jù)悉,Pygmy之所以支持Int8和FP16兩種數(shù)據(jù)類型一方面是出于芯片模組性能和功耗的表現(xiàn)支持這兩種數(shù)據(jù)類型時(shí)在終端上的推理表現(xiàn)良好,另一方面是用戶的需求,因?yàn)槌诵酒?,相?yīng)的的軟件及應(yīng)用也需要支持對(duì)應(yīng)的數(shù)據(jù)類型。
還有,AI芯片消耗能量更多的是數(shù)據(jù)的搬運(yùn)而非計(jì)算,因此如何減少數(shù)據(jù)的搬運(yùn)以及數(shù)據(jù)類型的支持對(duì)于AI芯片的設(shè)計(jì)者而言也是必須考慮的問(wèn)題??梢钥吹降氖荘ygmy上搭載了1 MB的SRAM支持LPDDR4、SPI、UART等數(shù)據(jù)輸入輸出模式。但對(duì)于如何減少數(shù)據(jù)搬運(yùn)的耗能,譚章熹透露,睿思芯科有自己比較獨(dú)特的技術(shù),主要是在架構(gòu)設(shè)計(jì)上有所考慮,另外就是通過(guò)軟件進(jìn)行控制而非傳統(tǒng)意義上的硬件管理。
當(dāng)然,無(wú)論是傳統(tǒng)的芯片還是AI芯片,除了性能、功耗以及面積,成本也至關(guān)重要。譚章熹表示,之所以選擇28nnm工藝而非更先進(jìn)的工藝是因?yàn)橄冗M(jìn)工藝的提升成本越來(lái)越高,但性能的提升卻有限,綜合來(lái)看28nm對(duì)于睿思芯科而言是性價(jià)比最高的選擇。
Arm在IoT領(lǐng)域迎來(lái)與RISC-V的硬戰(zhàn)?
既然Pygmy整體表現(xiàn)優(yōu)于Arm同級(jí)別芯片,Pygmy也是面向各種物聯(lián)網(wǎng)終端的AI推理場(chǎng)景。同時(shí)我們還看到,國(guó)外的GreenWaves,國(guó)內(nèi)的中天微系統(tǒng)、君正集成電路、華米推出的基于RISC-V指令集的芯片都面向物聯(lián)網(wǎng)市場(chǎng),這是否意味著RISC-V指令集芯片在IoT領(lǐng)域已經(jīng)勢(shì)不可擋?
譚章熹表示:“RISC-V在整個(gè)軟件生態(tài)上與Arm的生態(tài)還有一定的距離,Arm也有一定的技術(shù)優(yōu)勢(shì),這不是短期內(nèi)建立的。不過(guò)我樂(lè)觀地認(rèn)為RISC-V縮小與Arm生態(tài)之間的差距要比Arm趕上x(chóng)86所需的時(shí)間要短。至于與Arm的競(jìng)爭(zhēng),在手機(jī)芯片領(lǐng)域RISC-V的機(jī)會(huì)不大,但目前我們看到了AI以及IoT,在新興的領(lǐng)域RISC-V有非常大的機(jī)會(huì)。因?yàn)樵贗oT市場(chǎng),有非常多的差異化需求,并且每個(gè)地區(qū)和市場(chǎng)的還可能有特性的需求,因此在這一市場(chǎng)大公司有其競(jìng)爭(zhēng)優(yōu)勢(shì),小公司也有優(yōu)勢(shì)。”
更具體地說(shuō),對(duì)于新興的應(yīng)用,RISC-V指令集的芯片能夠更加靈活,小公司能夠更好地滿足這些應(yīng)用的需求,這將在很大程度上與Arm行程競(jìng)爭(zhēng)。至于已經(jīng)在Arm上投入很多且從中獲益的公司,其競(jìng)爭(zhēng)對(duì)手以及成本可能是其選擇RISC-V的關(guān)鍵因素。據(jù)了解,包括谷歌、英偉達(dá)、高通、AMD、IBM、華為等巨頭都已經(jīng)加入了RISC-V基金會(huì),有一些Arm的用戶已經(jīng)開(kāi)始接觸RISC-V有一兩年時(shí)間,一旦有其中一家公司推出能效和成本更低的RISC-V芯片,其競(jìng)爭(zhēng)對(duì)手也會(huì)迅速跟進(jìn),這對(duì)于RISC-V指令集不僅是種認(rèn)可,也將有利于RISC-V與Arm的競(jìng)爭(zhēng)。
不過(guò),睿思芯科到底會(huì)選擇哪些AIoT應(yīng)用切入市場(chǎng)譚章熹并沒(méi)有透露。但他表示睿思芯科的業(yè)務(wù)模式將不是僅僅提供定制化的芯片或者模組,而是會(huì)基于已有的產(chǎn)品,做垂直的服務(wù),提供定制化的解決方案。當(dāng)被問(wèn)到是否會(huì)進(jìn)入熱鬧的安防市場(chǎng)的時(shí)候,他表示會(huì)對(duì)安防市場(chǎng)保持關(guān)注,要進(jìn)入這一市場(chǎng)一定會(huì)是戰(zhàn)略合作伙伴的方式,并且會(huì)找到一個(gè)特定的應(yīng)用角度切入,而非常見(jiàn)的監(jiān)控?cái)z像頭。
譚章熹也表示,即便是在新的IoT和AI市場(chǎng),RISC-V想要占據(jù)優(yōu)勢(shì)也并非一家企業(yè)可以實(shí)現(xiàn)的,而是要一個(gè)完整的系統(tǒng),這需要五年甚至十年,但我自己非常有信心。對(duì)于目前的RISC-V市場(chǎng),還沒(méi)有到需要彼此激烈競(jìng)爭(zhēng)的階段,而是更應(yīng)該共同把生態(tài)做大。僅組建聯(lián)盟而沒(méi)有拿出實(shí)際的產(chǎn)品也不是發(fā)展和壯大RISC-V好的方式,更多的應(yīng)該是拿出實(shí)際的產(chǎn)品以及進(jìn)行實(shí)質(zhì)的合作,進(jìn)一步能為RISC-V的生態(tài)做一些貢獻(xiàn)。
小結(jié)
譚章熹作為離RISC-V技術(shù)最近的中國(guó)人,他認(rèn)為RISC-V的精髓在精簡(jiǎn)、面積更小、速記更快,基于RISC-V指令集可以設(shè)計(jì)出更好的芯片,授權(quán)費(fèi),便宜在靈活性和開(kāi)放面前顯得不是那么重要。而他對(duì)RISC-V的理解以及他在芯片領(lǐng)域的積累讓他和他的團(tuán)隊(duì)能夠在七個(gè)月內(nèi)就完成一款芯片的全部研發(fā)工作。當(dāng)然,無(wú)論是在美國(guó)的OURS還是在深圳的睿思芯科,在文化以及做事方式上都有不少的硅谷作風(fēng)。
Arm在手機(jī)領(lǐng)域的地位難以撼動(dòng),但是在AIoT領(lǐng)域Arm顯然已經(jīng)感受到來(lái)自RISC-V陣營(yíng)的競(jìng)爭(zhēng),并對(duì)此保持關(guān)注。因此,在AIoT領(lǐng)域到底是RISC-V能占據(jù)優(yōu)勢(shì)還是Arm,我們只能讓時(shí)間給我們答案,畢竟從歷史的經(jīng)驗(yàn)來(lái)看,一個(gè)技術(shù)的成功除了技術(shù)本身,還關(guān)系到非常多的因素。