AI視覺成像芯片攪動(dòng)千億級(jí)新市場(chǎng)，SoC時(shí)代即將過去

時(shí)間：2020-07-28 17:27:01

關(guān)鍵字： AI SoC 視覺成像芯片

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀] “這就像我們?cè)谔詫毶腺I東西，看到的都是賣家秀，拿到手的卻是買家秀。這其中最大的差別，就是光線環(huán)境的問題。” “圖像識(shí)別的賣家秀和買家秀之間，永遠(yuǎn)隔著一

“這就像我們?cè)谔詫毶腺I東西，看到的都是賣家秀，拿到手的卻是買家秀。這其中最大的差別，就是光線環(huán)境的問題。”

“圖像識(shí)別的賣家秀和買家秀之間，永遠(yuǎn)隔著一盞燈光的距離。”眼擎科技（eyemore）創(chuàng)始人&CEO朱繼志日前在IF創(chuàng)新大會(huì)2018上發(fā)布全球首款A(yù)I成像芯片時(shí)說(shuō)，“我們經(jīng)?？吹皆诟鞣N圖像識(shí)別比賽中，圖像識(shí)別率很高。但在實(shí)際場(chǎng)景中，比如人臉識(shí)別，卻沒有任何一家廠商敢提供識(shí)別率數(shù)據(jù)，因?yàn)楝F(xiàn)場(chǎng)問題實(shí)在太多了。”

下圖是朱繼志在發(fā)布會(huì)現(xiàn)場(chǎng)分享的一張PPT。左邊，是《花花公子》雜志御用模特Leina一張裸照的一部分。這張照片細(xì)節(jié)豐富、層次分明、邊緣清晰，三十年來(lái)所有和圖像算法相關(guān)的圖片，都拿它來(lái)做標(biāo)準(zhǔn)；但實(shí)際在現(xiàn)場(chǎng)拍到的圖片，卻往往是右邊的模樣，根本無(wú)法識(shí)別。

“圖像識(shí)別的賣家秀和買家秀之間，永遠(yuǎn)隔著一盞燈光的距離。”

“這就像我們?cè)谔詫毶腺I東西，看到的都是賣家秀，拿到手的卻是買家秀。這其中最大的差別，就是光線環(huán)境的問題。”朱繼志說(shuō)，給美女拍照片，會(huì)設(shè)置很多燈光。然而現(xiàn)實(shí)生活中的光線環(huán)境是不可控的，遇到弱光、逆光、反光情況時(shí)，成像效果就很差，AI算法無(wú)法識(shí)別。

給人看的像素時(shí)代終結(jié)，給機(jī)器看的視覺時(shí)代開啟

要解決賣家秀和買家秀的問題，就要靠視覺器官的進(jìn)化，把視覺放在一個(gè)系統(tǒng)整體來(lái)看。首先是眼睛，在前端負(fù)責(zé)感知，產(chǎn)生圖像；然后是大腦，在后端負(fù)責(zé)認(rèn)知，它分析圖像視覺；此外，還有第三部分—大腦如何控制眼睛，也就是雙方怎樣進(jìn)行智能的交互？只有大腦、眼睛、腦眼交互這三部分都智能化了，才能說(shuō)機(jī)器視覺是智能的。這也代表了人工智能在產(chǎn)業(yè)里發(fā)展的三個(gè)階段：大腦的進(jìn)化、器官的進(jìn)化、大腦和器官交互方式的進(jìn)化。

視覺的三種智能

要了解眼睛這個(gè)成像器官的進(jìn)化，就要先回顧一下成像技術(shù)的歷史。成像技術(shù)從30年代美國(guó)的膠卷時(shí)代開始，代表廠商是柯達(dá)；80年代進(jìn)入數(shù)碼時(shí)代，產(chǎn)業(yè)轉(zhuǎn)移到了日本，今天看到的所有的數(shù)碼照片，都是源自80年代日本的成像架構(gòu)，包括索尼、尼康、佳能等公司。然而到了AI時(shí)代，行業(yè)對(duì)圖像的需求可能會(huì)發(fā)生本質(zhì)的變化：圖像不再是給人看的，而是要給機(jī)器看。

給人看的時(shí)候，關(guān)注的自然是像素，喜歡自拍的姑娘，一定會(huì)關(guān)心手機(jī)前后攝像頭是多少像素。然而當(dāng)大家開始用iPhone X刷臉的時(shí)候，似乎又沒有多少人關(guān)心攝像頭的像素問題。因?yàn)槌ＷR(shí)告訴我們，人眼看世界的時(shí)候，是沒有像素概念的。

人眼是人類長(zhǎng)期進(jìn)化的結(jié)果，最強(qiáng)大之處在于對(duì)環(huán)境的適應(yīng)能力。正常情況下，看哪里都是清楚的，顏色都是對(duì)的，不存在賣家秀和買家秀的問題。相比之下，機(jī)器和人眼最大的差距，就是適應(yīng)性太差，而要解決適應(yīng)環(huán)境的問題，機(jī)器能用的資源只有三種：算力、算法和數(shù)據(jù)。

為了解決各種復(fù)雜光線問題導(dǎo)致的問題，眼擎科技使用了各種新型的算法，計(jì)算復(fù)雜度是數(shù)碼成像的50倍以上，通過對(duì)大量場(chǎng)景數(shù)據(jù)的測(cè)試，使得成像引擎能夠像人類眼睛一樣自動(dòng)的適應(yīng)各種環(huán)境，消除各種光線環(huán)境的影響，輸出穩(wěn)定的視覺圖像。

從IoE到VoE，新的千億級(jí)市場(chǎng)誕生

視覺技術(shù)分為兩種：成像（imaging）和圖像處理（image processing）。前端成像技術(shù)負(fù)責(zé)生成視覺圖像，后端圖像處理負(fù)責(zé)分析、識(shí)別、處理視覺圖像。換句話說(shuō)，成像相當(dāng)于人的眼睛，圖像處理相當(dāng)于人的大腦。

目前人工智能領(lǐng)域的明星公司，包括商湯、曠世、地平線、云從、依圖、深鑒等，都是基于圖像處理算法為核心技術(shù)的獨(dú)角獸公司。在過去的三年里，受深度學(xué)習(xí)技術(shù)的驅(qū)動(dòng)，圖像處理獲得了飛速的發(fā)展，但前端的成像技術(shù)，仍然停留在二十年前的水平，成為AI視覺未來(lái)發(fā)展以及商業(yè)應(yīng)用落地的嚴(yán)重的瓶頸，也是當(dāng)前各大AI公司的下一個(gè)必爭(zhēng)之地。

“AI將帶動(dòng)成像技術(shù)和產(chǎn)業(yè)從像素到視覺的一次大的變革和顛覆。中國(guó)是AI視覺產(chǎn)業(yè)落地最快的地方，我相信，這個(gè)新的成像技術(shù)的第三個(gè)階段，會(huì)由中國(guó)主導(dǎo)。”朱繼志說(shuō)。

和數(shù)碼時(shí)代相比，AI時(shí)代的成像在成像架構(gòu)、算法模型、評(píng)判標(biāo)準(zhǔn)、光線適應(yīng)性等諸多關(guān)鍵環(huán)節(jié)都發(fā)生了本質(zhì)上的變化，傳統(tǒng)的數(shù)碼成像技術(shù)架構(gòu)已不能滿足AI視覺的需求，面臨迅速被淘汰的窘境。未來(lái)五年，成像技術(shù)將有望完成從“圖像”到“視覺”的劃時(shí)代升級(jí)，視覺成像芯片和AI處理芯片一樣，成為人工智能的核心部件，由此衍生的產(chǎn)業(yè)升級(jí)需求，將在未來(lái)五年催生出成像領(lǐng)域千億級(jí)別的新增量市場(chǎng)。

從IoE到VoE，新的千億級(jí)市場(chǎng)誕生

給機(jī)器配置視覺中樞

算力、算法和數(shù)據(jù)集成到一起成為產(chǎn)品，就是一顆芯片，比如眼擎科技此番推出的全球首款A(yù)I視覺專用成像芯片Eyemore X42。這顆芯片采用了全新的成像引擎架構(gòu)，集成了超過20種的新型成像算法，感光度最高可以達(dá)到40萬(wàn)，單次曝光動(dòng)態(tài)范圍可以超過16bit，最大功耗在1.5W以內(nèi)。

全球首款A(yù)I視覺專用成像芯片Eyemore X42

完全自主研發(fā)的eyeMix、eyeNoise等核心成像算法構(gòu)成了X42的基礎(chǔ)。它拋棄了傳統(tǒng)的日系全局成像架構(gòu)，轉(zhuǎn)而采用分區(qū)域、分層的Eyemore成像引擎架構(gòu)，解決了視覺成像中存在的弱光、逆光、反光等痛點(diǎn)。

Eyemore成像引擎

“做成像芯片其實(shí)是一件很苦逼的事情。眼擎科技成立四年了，很多人都在問我這期間做了什么？我只能苦笑著說(shuō)我們?cè)谡{(diào)試圖像，在調(diào)試圖像，在不停的調(diào)試圖像。因?yàn)槌上袷且粋€(gè)主觀性比較強(qiáng)的事情，我們測(cè)試了500+以上的場(chǎng)景，前后耗時(shí)四年，才打磨完成了這款全球首個(gè)面向AI視覺應(yīng)用領(lǐng)域推出的成像芯片。”看得出來(lái)，朱繼志在回憶往事時(shí)也是不勝唏噓。

Eyemore X42的使命只有一個(gè)，那就是成像，就是要使成像引擎在各種復(fù)雜光線環(huán)境下，能排除現(xiàn)場(chǎng)光線的干擾，給AI視覺算法輸出穩(wěn)定可靠的高品質(zhì)視覺圖像，尤其是在微弱光線下超越人眼的視覺成像能力，幫助眾多AI公司客戶解鎖更加豐富的應(yīng)用場(chǎng)景。而為了提高芯片的成像性能，研發(fā)人員甚至將標(biāo)準(zhǔn)的視頻壓縮功能全部去掉。朱繼志對(duì)《電子工程專輯》表示，這就好比Intel的CPU雖然集成了顯卡功能，但Nvidia的專用GPU一定是未來(lái)的主流。

未來(lái)是個(gè)軟件定義硬件的世界，朱繼志對(duì)此也深信不疑。所以，在X42的芯片架構(gòu)中，所有的底層成像功能與各種算法都是可以被調(diào)用的。與傳統(tǒng)成像產(chǎn)品的“黑盒”屬性不一樣，X42芯片是一個(gè)“白盒”，可以提供完整的開發(fā)工具，支持各種平臺(tái)（包括Windows、Linux、Android、iOS）的開發(fā)接口API。這樣做的目的，也是希望讓所有的視覺算法工程師不必懂任何硬件，就能夠精確的掌控成像效果，從而提升AI視覺分析算法的效率和準(zhǔn)確性。

三年完成500家公司的Design-in

然而，一顆全新的芯片出來(lái)，誰(shuí)會(huì)相信你？誰(shuí)敢用？怎么用？

在創(chuàng)立眼擎科技之前，朱繼志在國(guó)內(nèi)最大的芯片分銷公司工作了八年，負(fù)責(zé)推廣各種類型的芯片。他深知芯片行業(yè)通行的規(guī)則，是要客戶在使用一顆全新的芯片之前，必須準(zhǔn)備好一系列的方案。首先是要有開發(fā)工具套件，讓客戶可以先學(xué)習(xí)調(diào)研；當(dāng)項(xiàng)目明確之后，要有產(chǎn)品模組，幫助客戶快速產(chǎn)品化；當(dāng)產(chǎn)品銷售上了批量，被完全驗(yàn)證之后，才會(huì)直接使用芯片；如果量再大，還需要提供IP授權(quán)；如果客戶有特殊的要求，還需要提供深度定制。這套完整的流程，就是傳說(shuō)中的Design-in。目前，眼擎科技AI視覺產(chǎn)品生命周期全棧式成像解決方案已經(jīng)準(zhǔn)備就緒，所有客戶即刻就可以開始使用。

眼擎科技AI視覺產(chǎn)品生命周期全棧式成像解決方案

眾所周知，芯片行業(yè)有屬于自己的固定周期。做一顆原創(chuàng)芯片，從技術(shù)開發(fā)，到市場(chǎng)大規(guī)模成熟應(yīng)用，一般需要接近七年的時(shí)間，也就是“3+2+2”模式：三年開發(fā)，兩年推廣，兩年成熟。按照這一規(guī)律，成立于2014年的眼擎科技在經(jīng)歷了3年開發(fā)期后，2018年將開始進(jìn)入規(guī)模推廣期。

芯片開發(fā)的“3+2+2”模式

在朱繼志為公司規(guī)劃的三年市場(chǎng)戰(zhàn)略中，眼擎科技將重點(diǎn)布局四個(gè)市場(chǎng)應(yīng)用方向：1、自動(dòng)駕駛的視覺成像；2、智能手機(jī)的AI成像；3、基于人臉識(shí)別的高端智能安防；4、包括軍工和醫(yī)療在內(nèi)的工業(yè)視覺成像。到2020年底，眼擎科技通過完成超過500家的AI視覺客戶的design-in，占領(lǐng)50%以上的AI視覺成像市場(chǎng)，成為新興的AI視覺成像技術(shù)的全球領(lǐng)導(dǎo)者。同時(shí)，眼擎科技將圍繞視覺成像技術(shù)，建立完整的成像生態(tài)，與AI視覺產(chǎn)業(yè)鏈的各個(gè)環(huán)節(jié)合作，包括共建實(shí)驗(yàn)室、戰(zhàn)略合作、聯(lián)合開發(fā)、技術(shù)授權(quán)等多種方式，共同推進(jìn)AI視覺的發(fā)展，為下一個(gè)階段將“Eyemore Inside”推向千億級(jí)數(shù)量的視覺應(yīng)用奠定基礎(chǔ)。

“3D結(jié)構(gòu)光電商掃描儀產(chǎn)品”是朱繼志在現(xiàn)場(chǎng)分享的一個(gè)實(shí)際案例。一家做“深度相機(jī)”的廠商此前在為電商掃描商品的3D模型時(shí)使用了兩個(gè)成像模組，一個(gè)拍結(jié)構(gòu)光，一個(gè)拍彩色畫面。而在采用眼擎科技的分時(shí)復(fù)用方案之后，僅僅用一個(gè)成像模組就解決了問題。然后，再通過交互接口API大幅提升了AI視覺算法的效率和準(zhǔn)確率，這在以前是不可想象的。

Eyemore成像引擎應(yīng)用案例

關(guān)于AI、視覺與芯片一些思考

● 第三種智能

所謂的“第三種智能”，其實(shí)是指AI與視覺的關(guān)系。AI做的是大腦，成像做的是眼睛。這里就存在一個(gè)問題：大腦該如何控制眼睛？傳統(tǒng)的技術(shù)方法是定義一個(gè)通信控制接口，但在視覺應(yīng)用中這種做法會(huì)非常復(fù)雜。比如，人眼有一個(gè)特點(diǎn)，就是“定睛一看”。通俗而言，就是人眼的成像是非常聚焦的，只看到關(guān)注的東西，其他都是模糊的。當(dāng)AI算法解決了“要看什么”的問題后，前端成像就有了目標(biāo)，可以把所有的資源都調(diào)配到關(guān)注的對(duì)象上，做到“指哪打哪”。這種根據(jù)AI的需求來(lái)成像，能解決很多以前解決不了的問題。從半年前開始，眼擎科技將大腦和眼睛的交互接口的開發(fā)當(dāng)作重點(diǎn)來(lái)突破，也希望能跟更多的AI算法公司合作，共同推進(jìn)大腦和眼睛交互的“第三種智能”。

● 從一家獨(dú)大到三國(guó)鼎立

朱繼志表示，以前，主流的處理器都集成了圖像功能，包括成像和圖像處理，但位置很不重要，這是Intel模式；現(xiàn)在，視覺處理成了核心，以前被集成的視覺部分會(huì)被分拆出來(lái)單獨(dú)成為一顆芯片，這是Nvidia模式，其他的AI芯片也都是這個(gè)思路。同樣的，集成的成像功能處理能力也不夠，也會(huì)被從SoC處理器中獨(dú)立出來(lái)，這就是Eyemore成像芯片正在做的事情。俗話說(shuō)，“天下事，分久必合，合久必分”，以前芯片行業(yè)是CPU一家獨(dú)大，現(xiàn)在因?yàn)橐曈X的原因，變成三分天下了。也就是說(shuō)，視覺影響了芯片的行業(yè)格局。

AI時(shí)代，芯片行業(yè)將從一家獨(dú)大變?yōu)槿龂?guó)鼎立

● 去中心化的AI視覺產(chǎn)品產(chǎn)業(yè)鏈

區(qū)塊鏈?zhǔn)亲罱鼧O火的概念，其核心思想就是去中心化。同樣的，在AI產(chǎn)業(yè)鏈中，也在上演去中心化的過程。朱繼志指出，傳統(tǒng)的硬件產(chǎn)品中，最核心的是CPU處理器，操作系統(tǒng)運(yùn)行在CPU上，誰(shuí)掌握了這個(gè)入口，誰(shuí)就成了中心，比如Intel、高通、MTK這些芯片都是中心。但在AI產(chǎn)品里，AI算法和數(shù)據(jù)運(yùn)行在包括GPU在內(nèi)的AI大腦芯片上，CPU將不再是中心。

在中心化時(shí)代里，CPU會(huì)不斷集成各種功能，最終成為turn-key的SoC模式。當(dāng)芯片集成了所有功能之后，所做的產(chǎn)品就會(huì)變得毫無(wú)差異化，最后比拼的只剩制造能力和銷售能力。而在AI時(shí)代，即便用同樣的芯片，不同的產(chǎn)品也會(huì)因?yàn)椴煌乃惴ê蛿?shù)據(jù)，產(chǎn)生極大的差異性和更大的市場(chǎng)價(jià)值，這就是在芯片去中心化后對(duì)AI產(chǎn)品產(chǎn)生的最大價(jià)值。

去中心化的AI視覺產(chǎn)品產(chǎn)業(yè)鏈