于無聲中聽驚雷,AI神器落人間【上】
作者:桑尼
老王其人
大家好,我是老王,住在隔壁。老王是一位科技從業(yè)者,人到中年,本應(yīng)朝著油膩的方向一騎絕塵,不曾想這一大波兒AI來得過于胸猛妖嬈,老王不由自主地強迫自己變得清爽宜人去靠近她。
老王一直以來有兩個夢想:第一是出一款震驚行業(yè)的AI方案,另一個嘛你懂得(PS:再次強調(diào)老王住隔壁)。
老王并非浪得虛名,老王曾出過響當(dāng)當(dāng)有行業(yè)影響力的AI產(chǎn)品,也曾位居某大型企業(yè)研究院掌門之位,在智能硬件領(lǐng)域帶過節(jié)奏領(lǐng)過風(fēng)騷。
英雄不談往事,還是說老王這些年在冥思苦想如何搞AI(她)。
首先,老王很想談幾點這些年來的思考,以饗各位。
問題一:AI產(chǎn)業(yè)到底需要什么樣的芯片?
人工智能發(fā)展幾經(jīng)沉浮,最近一次回到大眾視野源自2012年ImageNet大賽,在這屆大賽上,一個新玩意兒登場了,它就是卷積神經(jīng)網(wǎng)絡(luò)CNN,此后便一發(fā)不可收拾,火得一塌糊涂。甚至,卷積神經(jīng)網(wǎng)絡(luò)有一統(tǒng)視覺和語音之勢??梢?,卷積神經(jīng)網(wǎng)絡(luò)是這波兒AI大潮最重要的代表性技術(shù)。說到這,答案自然有了,AI產(chǎn)業(yè)需要處理卷積運算的協(xié)處理芯片!有人會問:為什么不是SoC?老王反問你,AI行業(yè)高度碎片化,不同場景對卷積運算性能要求不一樣,0.1TOPS,1TOPS,10TOPS…如何定義SoC?再說,市場上各種功能模塊高度成熟,應(yīng)有盡有,唯獨缺少高效的卷積運算方案,現(xiàn)階段應(yīng)先解決好這個問題,而不是上來就定一個SoC的小目標(biāo)。你不信老王可以,但你總不能質(zhì)疑谷歌吧。谷歌最近發(fā)布的端側(cè)開發(fā)板,Edge TPU正是一顆協(xié)處理器,搭配NXP(前Freescale)的主控,看見沒?以谷歌之力,打造SoC并非難事哦,道理不言自明。“專用主控+協(xié)處理器”的小型異構(gòu)計算系統(tǒng)是現(xiàn)階段最合理的端側(cè)解決方案,谷歌或明或暗的告訴大家了。
問題二:通用芯片還是專用芯片?
卷積運算是高密度運算,一般的通用型芯片看上去靈活好用但運算起來力不從心,選擇更高性能的通用型芯片,但發(fā)現(xiàn)功耗也會同比升高,此類方案部署在端側(cè)是不實際的。因此有一個指標(biāo)被特別看重,那就是“能耗效率”。一時間,整個產(chǎn)業(yè)都在思考“通用性與效率“二者能否得兼?其實,這并不是一個新話題,早在高性能計算(HPC)領(lǐng)域,這個問題就一直存在,只不過AI讓這個問題被更廣泛思考。老王要跟大家說的是,魚和熊掌你只能選一個!你不信老王可以,但你總不能質(zhì)疑計算機領(lǐng)域的宗師,2017年圖靈獎獲得者John Hennessy和David Patterson吧,說到這,DSA了解一下。DSA正是頂級大師給AI芯片領(lǐng)域指出的發(fā)展方向,即專用芯片。
在此還是要再提一下谷歌TPU,不知你注意沒,TPU其實只有11條指令,常用的有5條,其中兩條還是內(nèi)存讀寫指令,汗!沒錯兒,這就是側(cè)重效率的專用芯片,可能不是你想象那種高度可編程的架構(gòu)哦。
問題三:傳統(tǒng)計算架構(gòu)行不行?
答案是不行!摩爾定律對傳統(tǒng)架構(gòu)芯片性能提升的幫助已經(jīng)非常有限,硬生生堆砌計算單元,性能在理論上雖然可以提升,但是問題便隨之出現(xiàn):內(nèi)存帶寬跟得上嗎?功耗hold得住嗎?計算單元利用率有保障嗎?你不信老王可以,但你總不能質(zhì)疑芯片學(xué)術(shù)領(lǐng)域的“奧林匹克”--- ISSCC上那些頂級學(xué)者的論文吧,實在抱歉,論文太多,老王就不一一列舉了,總之一句話:架構(gòu)不創(chuàng)新是不行了。
問題四:芯片適配算法還是算法適配芯片?
剛剛我們談到了“通用性與效率”的問題,那么新問題來了,遍地的算法公司都自己關(guān)門搞一套模型架構(gòu),搞自定義操作的玩意兒,好像這年頭誰要是用開源的CNN模型就無法跟別人打招呼,那好吧,通用型芯片幾乎是他們的唯一選擇,問題又來了,端側(cè)通用型芯片能落地嗎?能跑起算法的那些高性能的多核ARM芯片動輒四瓦以上的功耗瞬間變身”小火爐”,用戶受得鳥嗎?找個功耗低一點的ARM芯片,性能不足導(dǎo)致實時性沒有了,用戶體驗不佳,用戶受得鳥嗎? 好吧,芯片不落地,算法也就無法變現(xiàn),算法公司怎么活?算法公司本不是老王操心的重點,重點是老王從video行業(yè)一路走來,目睹了從視頻格式大爆發(fā)到最后只剩三種:H.264,H.265,VP9。老王想跟諸位說,市場上幾百種上千種CNN模型,最終能剩下的可能不超過五個,因為模型本身也在競爭,背后的陣營也在競爭。識時務(wù)者為俊杰,老王給算法公司建言:讓算法主動去適配芯片,搭上專用芯片出貨的順風(fēng)車,早點變現(xiàn)才是生存之道!
說到這不知諸位有沒有思考過這些問題,在下篇中老王將解開神器面紗,推出老王力作,別走開,老王好久沒去隔壁了,去打聲招呼馬上回來噢!