AI視覺成像芯片攪動(dòng)千億級(jí)新市場(chǎng),SoC時(shí)代即將過去
“這就像我們?cè)谔詫毶腺I東西,看到的都是賣家秀,拿到手的卻是買家秀。這其中最大的差別,就是光線環(huán)境的問題。”
“圖像識(shí)別的賣家秀和買家秀之間,永遠(yuǎn)隔著一盞燈光的距離。”眼擎科技(eyemore)創(chuàng)始人&CEO朱繼志日前在IF創(chuàng)新大會(huì)2018上發(fā)布全球首款A(yù)I成像芯片時(shí)說(shuō),“我們經(jīng)??吹皆诟鞣N圖像識(shí)別比賽中,圖像識(shí)別率很高。但在實(shí)際場(chǎng)景中,比如人臉識(shí)別,卻沒有任何一家廠商敢提供識(shí)別率數(shù)據(jù),因?yàn)楝F(xiàn)場(chǎng)問題實(shí)在太多了。”
下圖是朱繼志在發(fā)布會(huì)現(xiàn)場(chǎng)分享的一張PPT。左邊,是《花花公子》雜志御用模特Leina一張裸照的一部分。這張照片細(xì)節(jié)豐富、層次分明、邊緣清晰,三十年來(lái)所有和圖像算法相關(guān)的圖片,都拿它來(lái)做標(biāo)準(zhǔn);但實(shí)際在現(xiàn)場(chǎng)拍到的圖片,卻往往是右邊的模樣,根本無(wú)法識(shí)別。
“圖像識(shí)別的賣家秀和買家秀之間,永遠(yuǎn)隔著一盞燈光的距離。”
“這就像我們?cè)谔詫毶腺I東西,看到的都是賣家秀,拿到手的卻是買家秀。這其中最大的差別,就是光線環(huán)境的問題。”朱繼志說(shuō),給美女拍照片,會(huì)設(shè)置很多燈光。然而現(xiàn)實(shí)生活中的光線環(huán)境是不可控的,遇到弱光、逆光、反光情況時(shí),成像效果就很差,AI算法無(wú)法識(shí)別。
給人看的像素時(shí)代終結(jié),給機(jī)器看的視覺時(shí)代開啟
要解決賣家秀和買家秀的問題,就要靠視覺器官的進(jìn)化,把視覺放在一個(gè)系統(tǒng)整體來(lái)看。首先是眼睛,在前端負(fù)責(zé)感知,產(chǎn)生圖像;然后是大腦,在后端負(fù)責(zé)認(rèn)知,它分析圖像視覺;此外,還有第三部分—大腦如何控制眼睛,也就是雙方怎樣進(jìn)行智能的交互?只有大腦、眼睛、腦眼交互這三部分都智能化了,才能說(shuō)機(jī)器視覺是智能的。這也代表了人工智能在產(chǎn)業(yè)里發(fā)展的三個(gè)階段:大腦的進(jìn)化、器官的進(jìn)化、大腦和器官交互方式的進(jìn)化。
視覺的三種智能
要了解眼睛這個(gè)成像器官的進(jìn)化,就要先回顧一下成像技術(shù)的歷史。成像技術(shù)從30年代美國(guó)的膠卷時(shí)代開始,代表廠商是柯達(dá);80年代進(jìn)入數(shù)碼時(shí)代,產(chǎn)業(yè)轉(zhuǎn)移到了日本,今天看到的所有的數(shù)碼照片,都是源自80年代日本的成像架構(gòu),包括索尼、尼康、佳能等公司。然而到了AI時(shí)代,行業(yè)對(duì)圖像的需求可能會(huì)發(fā)生本質(zhì)的變化:圖像不再是給人看的,而是要給機(jī)器看。
給人看的時(shí)候,關(guān)注的自然是像素,喜歡自拍的姑娘,一定會(huì)關(guān)心手機(jī)前后攝像頭是多少像素。然而當(dāng)大家開始用iPhone X刷臉的時(shí)候,似乎又沒有多少人關(guān)心攝像頭的像素問題。因?yàn)槌WR(shí)告訴我們,人眼看世界的時(shí)候,是沒有像素概念的。
人眼是人類長(zhǎng)期進(jìn)化的結(jié)果,最強(qiáng)大之處在于對(duì)環(huán)境的適應(yīng)能力。正常情況下,看哪里都是清楚的,顏色都是對(duì)的,不存在賣家秀和買家秀的問題。相比之下,機(jī)器和人眼最大的差距,就是適應(yīng)性太差,而要解決適應(yīng)環(huán)境的問題,機(jī)器能用的資源只有三種:算力、算法和數(shù)據(jù)。
為了解決各種復(fù)雜光線問題導(dǎo)致的問題,眼擎科技使用了各種新型的算法,計(jì)算復(fù)雜度是數(shù)碼成像的50倍以上,通過對(duì)大量場(chǎng)景數(shù)據(jù)的測(cè)試,使得成像引擎能夠像人類眼睛一樣自動(dòng)的適應(yīng)各種環(huán)境,消除各種光線環(huán)境的影響,輸出穩(wěn)定的視覺圖像。
從IoE到VoE,新的千億級(jí)市場(chǎng)誕生
視覺技術(shù)分為兩種:成像(imaging)和圖像處理(image processing)。前端成像技術(shù)負(fù)責(zé)生成視覺圖像,后端圖像處理負(fù)責(zé)分析、識(shí)別、處理視覺圖像。換句話說(shuō),成像相當(dāng)于人的眼睛,圖像處理相當(dāng)于人的大腦。
目前人工智能領(lǐng)域的明星公司,包括商湯、曠世、地平線、云從、依圖、深鑒等,都是基于圖像處理算法為核心技術(shù)的獨(dú)角獸公司。在過去的三年里,受深度學(xué)習(xí)技術(shù)的驅(qū)動(dòng),圖像處理獲得了飛速的發(fā)展,但前端的成像技術(shù),仍然停留在二十年前的水平,成為AI視覺未來(lái)發(fā)展以及商業(yè)應(yīng)用落地的嚴(yán)重的瓶頸,也是當(dāng)前各大AI公司的下一個(gè)必爭(zhēng)之地。
“AI將帶動(dòng)成像技術(shù)和產(chǎn)業(yè)從像素到視覺的一次大的變革和顛覆。中國(guó)是AI視覺產(chǎn)業(yè)落地最快的地方,我相信,這個(gè)新的成像技術(shù)的第三個(gè)階段,會(huì)由中國(guó)主導(dǎo)。”朱繼志說(shuō)。
和數(shù)碼時(shí)代相比,AI時(shí)代的成像在成像架構(gòu)、算法模型、評(píng)判標(biāo)準(zhǔn)、光線適應(yīng)性等諸多關(guān)鍵環(huán)節(jié)都發(fā)生了本質(zhì)上的變化,傳統(tǒng)的數(shù)碼成像技術(shù)架構(gòu)已不能滿足AI視覺的需求,面臨迅速被淘汰的窘境。未來(lái)五年,成像技術(shù)將有望完成從“圖像”到“視覺”的劃時(shí)代升級(jí),視覺成像芯片和AI處理芯片一樣,成為人工智能的核心部件,由此衍生的產(chǎn)業(yè)升級(jí)需求,將在未來(lái)五年催生出成像領(lǐng)域千億級(jí)別的新增量市場(chǎng)。
從IoE到VoE,新的千億級(jí)市場(chǎng)誕生
給機(jī)器配置視覺中樞
算力、算法和數(shù)據(jù)集成到一起成為產(chǎn)品,就是一顆芯片,比如眼擎科技此番推出的全球首款A(yù)I視覺專用成像芯片Eyemore X42。這顆芯片采用了全新的成像引擎架構(gòu),集成了超過20種的新型成像算法,感光度最高可以達(dá)到40萬(wàn),單次曝光動(dòng)態(tài)范圍可以超過16bit,最大功耗在1.5W以內(nèi)。
全球首款A(yù)I視覺專用成像芯片Eyemore X42
完全自主研發(fā)的eyeMix、eyeNoise等核心成像算法構(gòu)成了X42的基礎(chǔ)。它拋棄了傳統(tǒng)的日系全局成像架構(gòu),轉(zhuǎn)而采用分區(qū)域、分層的Eyemore成像引擎架構(gòu),解決了視覺成像中存在的弱光、逆光、反光等痛點(diǎn)。
Eyemore成像引擎
“做成像芯片其實(shí)是一件很苦逼的事情。眼擎科技成立四年了,很多人都在問我這期間做了什么?我只能苦笑著說(shuō)我們?cè)谡{(diào)試圖像,在調(diào)試圖像,在不停的調(diào)試圖像。因?yàn)槌上袷且粋€(gè)主觀性比較強(qiáng)的事情,我們測(cè)試了500+以上的場(chǎng)景,前后耗時(shí)四年,才打磨完成了這款全球首個(gè)面向AI視覺應(yīng)用領(lǐng)域推出的成像芯片。”看得出來(lái),朱繼志在回憶往事時(shí)也是不勝唏噓。
Eyemore X42的使命只有一個(gè),那就是成像,就是要使成像引擎在各種復(fù)雜光線環(huán)境下,能排除現(xiàn)場(chǎng)光線的干擾,給AI視覺算法輸出穩(wěn)定可靠的高品質(zhì)視覺圖像,尤其是在微弱光線下超越人眼的視覺成像能力,幫助眾多AI公司客戶解鎖更加豐富的應(yīng)用場(chǎng)景。而為了提高芯片的成像性能,研發(fā)人員甚至將標(biāo)準(zhǔn)的視頻壓縮功能全部去掉。朱繼志對(duì)《電子工程專輯》表示,這就好比Intel的CPU雖然集成了顯卡功能,但Nvidia的專用GPU一定是未來(lái)的主流。
未來(lái)是個(gè)軟件定義硬件的世界,朱繼志對(duì)此也深信不疑。所以,在X42的芯片架構(gòu)中,所有的底層成像功能與各種算法都是可以被調(diào)用的。與傳統(tǒng)成像產(chǎn)品的“黑盒”屬性不一樣,X42芯片是一個(gè)“白盒”,可以提供完整的開發(fā)工具,支持各種平臺(tái)(包括Windows、Linux、Android、iOS)的開發(fā)接口API。這樣做的目的,也是希望讓所有的視覺算法工程師不必懂任何硬件,就能夠精確的掌控成像效果,從而提升AI視覺分析算法的效率和準(zhǔn)確性。
三年完成500家公司的Design-in
然而,一顆全新的芯片出來(lái),誰(shuí)會(huì)相信你?誰(shuí)敢用?怎么用?
在創(chuàng)立眼擎科技之前,朱繼志在國(guó)內(nèi)最大的芯片分銷公司工作了八年,負(fù)責(zé)推廣各種類型的芯片。他深知芯片行業(yè)通行的規(guī)則,是要客戶在使用一顆全新的芯片之前,必須準(zhǔn)備好一系列的方案。首先是要有開發(fā)工具套件,讓客戶可以先學(xué)習(xí)調(diào)研;當(dāng)項(xiàng)目明確之后,要有產(chǎn)品模組,幫助客戶快速產(chǎn)品化;當(dāng)產(chǎn)品銷售上了批量,被完全驗(yàn)證之后,才會(huì)直接使用芯片;如果量再大,還需要提供IP授權(quán);如果客戶有特殊的要求,還需要提供深度定制。這套完整的流程,就是傳說(shuō)中的Design-in。目前,眼擎科技AI視覺產(chǎn)品生命周期全棧式成像解決方案已經(jīng)準(zhǔn)備就緒,所有客戶即刻就可以開始使用。
眼擎科技AI視覺產(chǎn)品生命周期全棧式成像解決方案
眾所周知,芯片行業(yè)有屬于自己的固定周期。做一顆原創(chuàng)芯片,從技術(shù)開發(fā),到市場(chǎng)大規(guī)模成熟應(yīng)用,一般需要接近七年的時(shí)間,也就是“3+2+2”模式:三年開發(fā),兩年推廣,兩年成熟。按照這一規(guī)律,成立于2014年的眼擎科技在經(jīng)歷了3年開發(fā)期后,2018年將開始進(jìn)入規(guī)模推廣期。
芯片開發(fā)的“3+2+2”模式
在朱繼志為公司規(guī)劃的三年市場(chǎng)戰(zhàn)略中,眼擎科技將重點(diǎn)布局四個(gè)市場(chǎng)應(yīng)用方向:1、自動(dòng)駕駛的視覺成像;2、智能手機(jī)的AI成像;3、基于人臉識(shí)別的高端智能安防;4、包括軍工和醫(yī)療在內(nèi)的工業(yè)視覺成像。到2020年底,眼擎科技通過完成超過500家的AI視覺客戶的design-in,占領(lǐng)50%以上的AI視覺成像市場(chǎng),成為新興的AI視覺成像技術(shù)的全球領(lǐng)導(dǎo)者。同時(shí),眼擎科技將圍繞視覺成像技術(shù),建立完整的成像生態(tài),與AI視覺產(chǎn)業(yè)鏈的各個(gè)環(huán)節(jié)合作,包括共建實(shí)驗(yàn)室、戰(zhàn)略合作、聯(lián)合開發(fā)、技術(shù)授權(quán)等多種方式,共同推進(jìn)AI視覺的發(fā)展,為下一個(gè)階段將“Eyemore Inside”推向千億級(jí)數(shù)量的視覺應(yīng)用奠定基礎(chǔ)。
“3D結(jié)構(gòu)光電商掃描儀產(chǎn)品”是朱繼志在現(xiàn)場(chǎng)分享的一個(gè)實(shí)際案例。一家做“深度相機(jī)”的廠商此前在為電商掃描商品的3D模型時(shí)使用了兩個(gè)成像模組,一個(gè)拍結(jié)構(gòu)光,一個(gè)拍彩色畫面。而在采用眼擎科技的分時(shí)復(fù)用方案之后,僅僅用一個(gè)成像模組就解決了問題。然后,再通過交互接口API大幅提升了AI視覺算法的效率和準(zhǔn)確率,這在以前是不可想象的。
Eyemore成像引擎應(yīng)用案例
關(guān)于AI、視覺與芯片一些思考
● 第三種智能
所謂的“第三種智能”,其實(shí)是指AI與視覺的關(guān)系。AI做的是大腦,成像做的是眼睛。這里就存在一個(gè)問題:大腦該如何控制眼睛?傳統(tǒng)的技術(shù)方法是定義一個(gè)通信控制接口,但在視覺應(yīng)用中這種做法會(huì)非常復(fù)雜。比如,人眼有一個(gè)特點(diǎn),就是“定睛一看”。通俗而言,就是人眼的成像是非常聚焦的,只看到關(guān)注的東西,其他都是模糊的。當(dāng)AI算法解決了“要看什么”的問題后,前端成像就有了目標(biāo),可以把所有的資源都調(diào)配到關(guān)注的對(duì)象上,做到“指哪打哪”。這種根據(jù)AI的需求來(lái)成像,能解決很多以前解決不了的問題。從半年前開始,眼擎科技將大腦和眼睛的交互接口的開發(fā)當(dāng)作重點(diǎn)來(lái)突破,也希望能跟更多的AI算法公司合作,共同推進(jìn)大腦和眼睛交互的“第三種智能”。
● 從一家獨(dú)大到三國(guó)鼎立
朱繼志表示,以前,主流的處理器都集成了圖像功能,包括成像和圖像處理,但位置很不重要,這是Intel模式;現(xiàn)在,視覺處理成了核心,以前被集成的視覺部分會(huì)被分拆出來(lái)單獨(dú)成為一顆芯片,這是Nvidia模式,其他的AI芯片也都是這個(gè)思路。同樣的,集成的成像功能處理能力也不夠,也會(huì)被從SoC處理器中獨(dú)立出來(lái),這就是Eyemore成像芯片正在做的事情。俗話說(shuō),“天下事,分久必合,合久必分”,以前芯片行業(yè)是CPU一家獨(dú)大,現(xiàn)在因?yàn)橐曈X的原因,變成三分天下了。也就是說(shuō),視覺影響了芯片的行業(yè)格局。
AI時(shí)代,芯片行業(yè)將從一家獨(dú)大變?yōu)槿龂?guó)鼎立
● 去中心化的AI視覺產(chǎn)品產(chǎn)業(yè)鏈
區(qū)塊鏈?zhǔn)亲罱鼧O火的概念,其核心思想就是去中心化。同樣的,在AI產(chǎn)業(yè)鏈中,也在上演去中心化的過程。朱繼志指出,傳統(tǒng)的硬件產(chǎn)品中,最核心的是CPU處理器,操作系統(tǒng)運(yùn)行在CPU上,誰(shuí)掌握了這個(gè)入口,誰(shuí)就成了中心,比如Intel、高通、MTK這些芯片都是中心。但在AI產(chǎn)品里,AI算法和數(shù)據(jù)運(yùn)行在包括GPU在內(nèi)的AI大腦芯片上,CPU將不再是中心。
在中心化時(shí)代里,CPU會(huì)不斷集成各種功能,最終成為turn-key的SoC模式。當(dāng)芯片集成了所有功能之后,所做的產(chǎn)品就會(huì)變得毫無(wú)差異化,最后比拼的只剩制造能力和銷售能力。而在AI時(shí)代,即便用同樣的芯片,不同的產(chǎn)品也會(huì)因?yàn)椴煌乃惴ê蛿?shù)據(jù),產(chǎn)生極大的差異性和更大的市場(chǎng)價(jià)值,這就是在芯片去中心化后對(duì)AI產(chǎn)品產(chǎn)生的最大價(jià)值。
去中心化的AI視覺產(chǎn)品產(chǎn)業(yè)鏈