3D視覺(jué)將迎來(lái)全面取代2D的拐點(diǎn)

時(shí)間：2020-10-19 19:49:50

關(guān)鍵字： 3d視覺(jué) 機(jī)器計(jì)算機(jī)

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]10月16日，在北京舉行的2020年度人工智能產(chǎn)業(yè)峰會(huì)上，的盧深視CEO戶磊受邀發(fā)表《技術(shù)落地的試金石，規(guī)模與體驗(yàn)讓3D視覺(jué)成為機(jī)器標(biāo)配的眼睛》的主題演講。他表示：由于神經(jīng)網(wǎng)絡(luò)基礎(chǔ)浪潮的來(lái)臨，大眾認(rèn)為經(jīng)過(guò)算法能力的提升和算力的加持，以及更多的數(shù)據(jù)采集，很快就可以形成人工智能AI的大規(guī)模應(yīng)用，因而計(jì)算機(jī)視覺(jué)技術(shù)的發(fā)展，曾在2018年出現(xiàn)過(guò)一個(gè)波峰。

10月16日，在北京舉行的2020年度人工智能產(chǎn)業(yè)峰會(huì)上，的盧深視CEO戶磊受邀發(fā)表《技術(shù)落地的試金石，規(guī)模與體驗(yàn)讓3D視覺(jué)成為機(jī)器標(biāo)配的眼睛》的主題演講。他表示：由于神經(jīng)網(wǎng)絡(luò)基礎(chǔ)浪潮的來(lái)臨，大眾認(rèn)為經(jīng)過(guò)算法能力的提升和算力的加持，以及更多的數(shù)據(jù)采集，很快就可以形成人工智能AI的大規(guī)模應(yīng)用，因而計(jì)算機(jī)視覺(jué)技術(shù)的發(fā)展，曾在2018年出現(xiàn)過(guò)一個(gè)波峰。

然而在2020年卻又步入了低谷期，是因?yàn)樵诎l(fā)展過(guò)程中大家認(rèn)識(shí)到了，真正成熟的計(jì)算機(jī)視覺(jué)或者機(jī)器視覺(jué)的應(yīng)用，需要與行業(yè)場(chǎng)景結(jié)合，不止是簡(jiǎn)單的行業(yè)、系統(tǒng)和算法相加，就能夠解決問(wèn)題。而是需要從數(shù)據(jù)、傳感到整個(gè)系統(tǒng)設(shè)計(jì)，再到與行業(yè)的結(jié)合，才能夠形成一個(gè)真正落地的完整方案。這個(gè)過(guò)程與技術(shù)的演進(jìn)，標(biāo)準(zhǔn)規(guī)范的建設(shè)都有關(guān)系。

戶磊強(qiáng)調(diào)，3D視覺(jué)幫助機(jī)器實(shí)現(xiàn)更好的人機(jī)交互，這是人工智能升級(jí)迭代的核心動(dòng)力之一。經(jīng)過(guò)前些年的市場(chǎng)培育，大家對(duì)于AI應(yīng)用或者視覺(jué)應(yīng)用開(kāi)始有了認(rèn)知，并養(yǎng)成了一定的用戶習(xí)慣，開(kāi)始希望將體驗(yàn)和效率提升，應(yīng)用到更多行業(yè)，應(yīng)用到更多場(chǎng)景當(dāng)中。而這些應(yīng)用對(duì)規(guī)模和安全性的要求又提升了一個(gè)量級(jí)，因此產(chǎn)生并增加了對(duì)3D技術(shù)的需求。

在3D硬件相對(duì)成本較高的時(shí)期，還是需要從更強(qiáng)剛需領(lǐng)域切入。隨著應(yīng)用領(lǐng)域和范圍越來(lái)越大，硬件規(guī)模越來(lái)越大，3D的應(yīng)用成本也將逐漸降低。當(dāng)3D硬件成本趨近于2D時(shí)，在整個(gè)系統(tǒng)、產(chǎn)品中差異就趨近于零，用戶就會(huì)選擇更優(yōu)性能，也將迎來(lái)3D全面取代2D的拐點(diǎn)。

的盧深視創(chuàng)建于2015年，專(zhuān)注于3D視覺(jué)，專(zhuān)攻毫米級(jí)三維成像、三維重建、三維測(cè)量、空間定位跟蹤、識(shí)別、理解，六大核心技術(shù)方向?？偛课挥诒本?，研發(fā)中心和產(chǎn)品中心位于合肥和杭州，并在深圳建有營(yíng)銷(xiāo)中心，擁有十余個(gè)服務(wù)網(wǎng)絡(luò)，能夠提供本地化服務(wù)。的盧深視始終堅(jiān)持3D需要軟硬件一體的設(shè)計(jì)，通過(guò)系統(tǒng)的垂直整合以及系統(tǒng)優(yōu)化的提供，可大規(guī)模普及交互距離內(nèi)的高精準(zhǔn)3D感知系統(tǒng)和解決方案。

本次峰會(huì)由獵云網(wǎng)主辦，獵云資本、企業(yè)管家、獵云財(cái)經(jīng)、銳視角協(xié)辦。峰會(huì)以“AI UP!”為主題，聚焦人工智能產(chǎn)業(yè)的應(yīng)用，通過(guò)展示多領(lǐng)域多維度人工智能技術(shù)和產(chǎn)品以及分享討論AI在不同場(chǎng)景中最新落地應(yīng)用，展現(xiàn)人工智能產(chǎn)業(yè)落地應(yīng)用的最新成就;并圍繞人工智能產(chǎn)業(yè)的“進(jìn)擊”與“破圈”，探討AI技術(shù)如何為產(chǎn)業(yè)賦能。

以下為演講分享實(shí)錄，獵云網(wǎng)整理刪改：

我們的盧深視從事的方向更多是做關(guān)于人的交互、識(shí)別和感知，今天給大家分享一些我們的認(rèn)知。從Gartner關(guān)于計(jì)算機(jī)視覺(jué)技術(shù)成熟度曲線的發(fā)展和預(yù)測(cè)，可以看出自技術(shù)發(fā)展早期，曾出現(xiàn)過(guò)一個(gè)波峰，即2018年。因?yàn)樵谏窠?jīng)網(wǎng)絡(luò)基礎(chǔ)浪潮來(lái)臨時(shí)，大家認(rèn)為經(jīng)過(guò)算法能力的提升和算力的加持，以及可以采集到更多數(shù)據(jù)，很快就可以形成人工智能AI的大規(guī)模應(yīng)用。

然而2020年又出現(xiàn)了一個(gè)低谷期，這個(gè)過(guò)程當(dāng)中大家認(rèn)識(shí)到了，真正成熟的計(jì)算機(jī)視覺(jué)或者機(jī)器視覺(jué)的應(yīng)用，需要與行業(yè)場(chǎng)景結(jié)合，不止是簡(jiǎn)單的行業(yè)、系統(tǒng)和算法相加，就能夠解決問(wèn)題。而是需要從數(shù)據(jù)傳感到整個(gè)系統(tǒng)設(shè)計(jì)，再到與行業(yè)的結(jié)合，才能夠形成一個(gè)真正落地的完整方案。這個(gè)過(guò)程與技術(shù)的演進(jìn)，標(biāo)準(zhǔn)規(guī)范的建設(shè)都有關(guān)系。

對(duì)于視覺(jué)，之前我們所講的圖像視覺(jué)，是2D視覺(jué)，以人為對(duì)象。而以后AI應(yīng)用更多的是機(jī)器視覺(jué)，是以機(jī)器為對(duì)象，為了讓機(jī)器能夠更好的感知和理解這個(gè)世界。同時(shí)利用機(jī)器可以24小時(shí)無(wú)休、快速計(jì)算的能力，為人服務(wù)解放人，所以機(jī)器視覺(jué)會(huì)是未來(lái)很重要的因素。

為了讓機(jī)器更好理解這個(gè)世界，我們就不會(huì)完全受限于原始圖像信息，而是更多的把物理世界當(dāng)中更豐富的3D信息提取出來(lái)，輸送給機(jī)器，讓機(jī)器更好理解。這也將是升級(jí)迭代非常重要的核心動(dòng)力。

另外，分享一些3D視覺(jué)應(yīng)用的趨勢(shì)和方向。首先經(jīng)過(guò)前些年整個(gè)市場(chǎng)的培育，大家對(duì)于AI一些應(yīng)用或者視覺(jué)的應(yīng)用開(kāi)始有了認(rèn)知，落地實(shí)踐中最常見(jiàn)的應(yīng)用就是人臉識(shí)別，經(jīng)過(guò)了初期普及，大眾開(kāi)始習(xí)慣了通過(guò)人臉這種比較低配合、無(wú)感的生物識(shí)別，進(jìn)行身份驗(yàn)證。

因此，人們開(kāi)始希望把體驗(yàn)和效率提升，應(yīng)用到更多行業(yè)，應(yīng)用到更多場(chǎng)景當(dāng)中。比如用身份識(shí)別直接支付、直接坐地鐵。

這些應(yīng)用的規(guī)模和整個(gè)安全性的要求又提升了一個(gè)數(shù)量級(jí)，比人證核驗(yàn)的場(chǎng)景需求要求更高，對(duì)安全性要求也更高，就開(kāi)始逐步應(yīng)用到3D的技術(shù)。比如在3D刷臉支付領(lǐng)域當(dāng)中，我在線下的刷臉支付APP上面通常都會(huì)用到3D攝像頭，對(duì)于平面的假體有更好的防護(hù)能力。

總體來(lái)看，因?yàn)?D刷臉活體和技術(shù)革新，可以帶來(lái)更高的安全性。比如在更大數(shù)據(jù)庫(kù)，更大底庫(kù)情況下可以實(shí)現(xiàn)更精準(zhǔn)的識(shí)別，同時(shí)提升識(shí)別的交互體驗(yàn)，對(duì)于刷臉角度有更大的容忍度，包括對(duì)于活體檢測(cè)，對(duì)于偽裝有更好防護(hù)能力。在更大數(shù)據(jù)庫(kù)、更大規(guī)模、更高安全性普及性應(yīng)用當(dāng)中，3D相關(guān)的人臉識(shí)別技術(shù)將會(huì)成為主流。

同時(shí)，獲得3D信息，一定會(huì)帶來(lái)成本，在感知階段就要獲取3D數(shù)據(jù)，就需要擁有3D硬件，或者獲取3D數(shù)據(jù)的能力。不過(guò)隨著應(yīng)用規(guī)模的提升，成本就會(huì)逐漸下降。我們認(rèn)為在3D硬件相對(duì)成本比較高的時(shí)期，還是需要從更強(qiáng)剛需領(lǐng)域切入，隨著應(yīng)用領(lǐng)域和范圍越來(lái)越大，硬件規(guī)模越來(lái)越大，就會(huì)逐步降低成本。等3D硬件成本趨近于2D時(shí)，在整個(gè)系統(tǒng)、產(chǎn)品中差異就趨近于零，用戶就會(huì)選擇更優(yōu)性能，也將迎來(lái)全面取代2D的拐點(diǎn)。我們認(rèn)為現(xiàn)在成本已經(jīng)非常接近，預(yù)計(jì)明年或者后年就會(huì)迎來(lái)拐點(diǎn)。

3D整個(gè)視覺(jué)的應(yīng)用肯定從一些領(lǐng)域開(kāi)始，逐步延伸，需要一個(gè)過(guò)程。但是在這個(gè)過(guò)程當(dāng)中，我們作為技術(shù)公司，需要與行業(yè)市場(chǎng)結(jié)合，并且在結(jié)合過(guò)程中逐步完成技術(shù)的升級(jí)和產(chǎn)品的迭代，最終形成不斷演進(jìn)的能力。

而公司自身的整個(gè)技術(shù)研發(fā)體系是非常重要的。我們的思路是，從市場(chǎng)需求出發(fā)，將技術(shù)規(guī)劃分成兩部分，一個(gè)是實(shí)現(xiàn)技術(shù)領(lǐng)先性的規(guī)劃，另外一個(gè)是支撐產(chǎn)品落地的規(guī)劃，通過(guò)新技術(shù)的預(yù)研和產(chǎn)品驗(yàn)證，再加上產(chǎn)品研發(fā)的瀑布式迭代方式，形成可規(guī)模量產(chǎn)的產(chǎn)品。我們與高校和科學(xué)家團(tuán)隊(duì)都有非常緊密的合作。同時(shí)，底層有我們?nèi)S視覺(jué)工程化平臺(tái)進(jìn)行支撐。

我們將三維視覺(jué)工程化平臺(tái)分成四部分，第一是光學(xué)、另外一部分是算法，我們認(rèn)為光學(xué)和算法是密不可分的，我們有原型驗(yàn)證和可靠性驗(yàn)證的設(shè)備。另外機(jī)械和電氣，也是要做完整的應(yīng)用產(chǎn)品和解決方案，所必不可少的。光學(xué)、算法、機(jī)械和電器共同形成一個(gè)產(chǎn)品的迭代和技術(shù)發(fā)展。

最后三維視覺(jué)是一個(gè)完整的產(chǎn)業(yè)鏈，上游最前面是光學(xué)的起點(diǎn)，不管是結(jié)構(gòu)光，還是各種各樣光學(xué)器件，中間會(huì)有整個(gè)模組裝配環(huán)節(jié)，我們從成像系統(tǒng)設(shè)計(jì)開(kāi)始，再上層光學(xué)的相機(jī)系統(tǒng)加上3D算法形成一個(gè)完整3D軟硬一體的模組，提供完整的算法能力，再嵌入到產(chǎn)品當(dāng)中，去支撐下游的客戶或者合作伙伴，形成完整的行業(yè)解決方案。

我們認(rèn)為3D視覺(jué)發(fā)展到現(xiàn)在，光學(xué)系統(tǒng)和算法系統(tǒng)的緊密結(jié)合，或者一個(gè)交互的一體設(shè)計(jì)是最終能夠落地應(yīng)用，能更快速在產(chǎn)業(yè)當(dāng)中賦能最重要的思路，兩者之間是沒(méi)辦法分開(kāi)的。

對(duì)于3D視覺(jué)的應(yīng)用，將來(lái)還會(huì)在哪些方面產(chǎn)生更多的可能的變革，我們想法相對(duì)謹(jǐn)慎。主要是做場(chǎng)景重建、重建之后的結(jié)構(gòu)化和數(shù)據(jù)化，也可以做醫(yī)療影像，或者做一些物體，我們整個(gè)標(biāo)的是人。

我們的理念一直是人的智能，希望最終可以實(shí)現(xiàn)從輕配合到無(wú)配合，實(shí)現(xiàn)機(jī)器跟人的交互變得像人與人一樣自然。我們探究的是人如何去認(rèn)識(shí)人、跟人交互。首先想要識(shí)別身份，然后對(duì)人的行為想法進(jìn)行預(yù)測(cè)，并且不斷沿著這個(gè)路徑進(jìn)行演進(jìn)。從整個(gè)技術(shù)架構(gòu)來(lái)講，我們以“人”為標(biāo)的物，我們最終希望能夠做到對(duì)于人，對(duì)于物理世界中一個(gè)3D存在的身份、行為、軌跡的精細(xì)數(shù)字化的認(rèn)知。

技術(shù)演進(jìn)路徑上與一般的圖象識(shí)別不同的是，3D有數(shù)據(jù)、有算法，同時(shí)有傳感。從數(shù)據(jù)角度需要海量實(shí)戰(zhàn)的3D數(shù)據(jù)采集和標(biāo)注，要求能夠建立3D數(shù)據(jù)庫(kù)和相關(guān)的標(biāo)準(zhǔn)。在算法層面，包括人臉識(shí)別、表情識(shí)別、動(dòng)作捕捉、體貌，從傳感器側(cè)面，需要更好地通過(guò)低成本的硬件去實(shí)現(xiàn)3D原始數(shù)據(jù)的獲取。

最終通過(guò)結(jié)構(gòu)光的方式，包括雙目，我們希望能夠在遠(yuǎn)距離下得到3D更高的感知精度，以覆蓋更大場(chǎng)景，在各種各樣光照條件下都能獲得3D數(shù)據(jù)，且能獲取到更高分辨率的數(shù)據(jù)，更能做到更小更低成本，最后都將更好地應(yīng)用和服務(wù)于行業(yè)。