3D視覺(jué)將迎來(lái)全面取代2D的拐點(diǎn)
掃描二維碼
隨時(shí)隨地手機(jī)看文章
10月16日,在北京舉行的2020年度人工智能產(chǎn)業(yè)峰會(huì)上,的盧深視CEO戶磊受邀發(fā)表《技術(shù)落地的試金石,規(guī)模與體驗(yàn)讓3D視覺(jué)成為機(jī)器標(biāo)配的眼睛》的主題演講。他表示:由于神經(jīng)網(wǎng)絡(luò)基礎(chǔ)浪潮的來(lái)臨,大眾認(rèn)為經(jīng)過(guò)算法能力的提升和算力的加持,以及更多的數(shù)據(jù)采集,很快就可以形成人工智能AI的大規(guī)模應(yīng)用,因而計(jì)算機(jī)視覺(jué)技術(shù)的發(fā)展,曾在2018年出現(xiàn)過(guò)一個(gè)波峰。
然而在2020年卻又步入了低谷期,是因?yàn)樵诎l(fā)展過(guò)程中大家認(rèn)識(shí)到了,真正成熟的計(jì)算機(jī)視覺(jué)或者機(jī)器視覺(jué)的應(yīng)用,需要與行業(yè)場(chǎng)景結(jié)合,不止是簡(jiǎn)單的行業(yè)、系統(tǒng)和算法相加,就能夠解決問(wèn)題。而是需要從數(shù)據(jù)、傳感到整個(gè)系統(tǒng)設(shè)計(jì),再到與行業(yè)的結(jié)合,才能夠形成一個(gè)真正落地的完整方案。這個(gè)過(guò)程與技術(shù)的演進(jìn),標(biāo)準(zhǔn)規(guī)范的建設(shè)都有關(guān)系。
戶磊強(qiáng)調(diào),3D視覺(jué)幫助機(jī)器實(shí)現(xiàn)更好的人機(jī)交互,這是人工智能升級(jí)迭代的核心動(dòng)力之一。經(jīng)過(guò)前些年的市場(chǎng)培育,大家對(duì)于AI應(yīng)用或者視覺(jué)應(yīng)用開(kāi)始有了認(rèn)知,并養(yǎng)成了一定的用戶習(xí)慣,開(kāi)始希望將體驗(yàn)和效率提升,應(yīng)用到更多行業(yè),應(yīng)用到更多場(chǎng)景當(dāng)中。而這些應(yīng)用對(duì)規(guī)模和安全性的要求又提升了一個(gè)量級(jí),因此產(chǎn)生并增加了對(duì)3D技術(shù)的需求。
在3D硬件相對(duì)成本較高的時(shí)期,還是需要從更強(qiáng)剛需領(lǐng)域切入。隨著應(yīng)用領(lǐng)域和范圍越來(lái)越大,硬件規(guī)模越來(lái)越大,3D的應(yīng)用成本也將逐漸降低。當(dāng)3D硬件成本趨近于2D時(shí),在整個(gè)系統(tǒng)、產(chǎn)品中差異就趨近于零,用戶就會(huì)選擇更優(yōu)性能,也將迎來(lái)3D全面取代2D的拐點(diǎn)。
的盧深視創(chuàng)建于2015年,專(zhuān)注于3D視覺(jué),專(zhuān)攻毫米級(jí)三維成像、三維重建、三維測(cè)量、空間定位跟蹤、識(shí)別、理解,六大核心技術(shù)方向??偛课挥诒本?,研發(fā)中心和產(chǎn)品中心位于合肥和杭州,并在深圳建有營(yíng)銷(xiāo)中心,擁有十余個(gè)服務(wù)網(wǎng)絡(luò),能夠提供本地化服務(wù)。的盧深視始終堅(jiān)持3D需要軟硬件一體的設(shè)計(jì),通過(guò)系統(tǒng)的垂直整合以及系統(tǒng)優(yōu)化的提供,可大規(guī)模普及交互距離內(nèi)的高精準(zhǔn)3D感知系統(tǒng)和解決方案。
本次峰會(huì)由獵云網(wǎng)主辦,獵云資本、企業(yè)管家、獵云財(cái)經(jīng)、銳視角協(xié)辦。峰會(huì)以“AI UP!”為主題,聚焦人工智能產(chǎn)業(yè)的應(yīng)用,通過(guò)展示多領(lǐng)域多維度人工智能技術(shù)和產(chǎn)品以及分享討論AI在不同場(chǎng)景中最新落地應(yīng)用,展現(xiàn)人工智能產(chǎn)業(yè)落地應(yīng)用的最新成就;并圍繞人工智能產(chǎn)業(yè)的“進(jìn)擊”與“破圈”,探討AI技術(shù)如何為產(chǎn)業(yè)賦能。
以下為演講分享實(shí)錄,獵云網(wǎng)整理刪改:
我們的盧深視從事的方向更多是做關(guān)于人的交互、識(shí)別和感知,今天給大家分享一些我們的認(rèn)知。從Gartner關(guān)于計(jì)算機(jī)視覺(jué)技術(shù)成熟度曲線的發(fā)展和預(yù)測(cè),可以看出自技術(shù)發(fā)展早期,曾出現(xiàn)過(guò)一個(gè)波峰,即2018年。因?yàn)樵谏窠?jīng)網(wǎng)絡(luò)基礎(chǔ)浪潮來(lái)臨時(shí),大家認(rèn)為經(jīng)過(guò)算法能力的提升和算力的加持,以及可以采集到更多數(shù)據(jù),很快就可以形成人工智能AI的大規(guī)模應(yīng)用。
然而2020年又出現(xiàn)了一個(gè)低谷期,這個(gè)過(guò)程當(dāng)中大家認(rèn)識(shí)到了,真正成熟的計(jì)算機(jī)視覺(jué)或者機(jī)器視覺(jué)的應(yīng)用,需要與行業(yè)場(chǎng)景結(jié)合,不止是簡(jiǎn)單的行業(yè)、系統(tǒng)和算法相加,就能夠解決問(wèn)題。而是需要從數(shù)據(jù)傳感到整個(gè)系統(tǒng)設(shè)計(jì),再到與行業(yè)的結(jié)合,才能夠形成一個(gè)真正落地的完整方案。這個(gè)過(guò)程與技術(shù)的演進(jìn),標(biāo)準(zhǔn)規(guī)范的建設(shè)都有關(guān)系。
對(duì)于視覺(jué),之前我們所講的圖像視覺(jué),是2D視覺(jué),以人為對(duì)象。而以后AI應(yīng)用更多的是機(jī)器視覺(jué),是以機(jī)器為對(duì)象,為了讓機(jī)器能夠更好的感知和理解這個(gè)世界。同時(shí)利用機(jī)器可以24小時(shí)無(wú)休、快速計(jì)算的能力,為人服務(wù)解放人,所以機(jī)器視覺(jué)會(huì)是未來(lái)很重要的因素。
為了讓機(jī)器更好理解這個(gè)世界,我們就不會(huì)完全受限于原始圖像信息,而是更多的把物理世界當(dāng)中更豐富的3D信息提取出來(lái),輸送給機(jī)器,讓機(jī)器更好理解。這也將是升級(jí)迭代非常重要的核心動(dòng)力。
另外,分享一些3D視覺(jué)應(yīng)用的趨勢(shì)和方向。首先經(jīng)過(guò)前些年整個(gè)市場(chǎng)的培育,大家對(duì)于AI一些應(yīng)用或者視覺(jué)的應(yīng)用開(kāi)始有了認(rèn)知,落地實(shí)踐中最常見(jiàn)的應(yīng)用就是人臉識(shí)別,經(jīng)過(guò)了初期普及,大眾開(kāi)始習(xí)慣了通過(guò)人臉這種比較低配合、無(wú)感的生物識(shí)別,進(jìn)行身份驗(yàn)證。
因此,人們開(kāi)始希望把體驗(yàn)和效率提升,應(yīng)用到更多行業(yè),應(yīng)用到更多場(chǎng)景當(dāng)中。比如用身份識(shí)別直接支付、直接坐地鐵。
這些應(yīng)用的規(guī)模和整個(gè)安全性的要求又提升了一個(gè)數(shù)量級(jí),比人證核驗(yàn)的場(chǎng)景需求要求更高,對(duì)安全性要求也更高,就開(kāi)始逐步應(yīng)用到3D的技術(shù)。比如在3D刷臉支付領(lǐng)域當(dāng)中,我在線下的刷臉支付APP上面通常都會(huì)用到3D攝像頭,對(duì)于平面的假體有更好的防護(hù)能力。
總體來(lái)看,因?yàn)?D刷臉活體和技術(shù)革新,可以帶來(lái)更高的安全性。比如在更大數(shù)據(jù)庫(kù),更大底庫(kù)情況下可以實(shí)現(xiàn)更精準(zhǔn)的識(shí)別,同時(shí)提升識(shí)別的交互體驗(yàn),對(duì)于刷臉角度有更大的容忍度,包括對(duì)于活體檢測(cè),對(duì)于偽裝有更好防護(hù)能力。在更大數(shù)據(jù)庫(kù)、更大規(guī)模、更高安全性普及性應(yīng)用當(dāng)中,3D相關(guān)的人臉識(shí)別技術(shù)將會(huì)成為主流。
同時(shí),獲得3D信息,一定會(huì)帶來(lái)成本,在感知階段就要獲取3D數(shù)據(jù),就需要擁有3D硬件,或者獲取3D數(shù)據(jù)的能力。不過(guò)隨著應(yīng)用規(guī)模的提升,成本就會(huì)逐漸下降。我們認(rèn)為在3D硬件相對(duì)成本比較高的時(shí)期,還是需要從更強(qiáng)剛需領(lǐng)域切入,隨著應(yīng)用領(lǐng)域和范圍越來(lái)越大,硬件規(guī)模越來(lái)越大,就會(huì)逐步降低成本。等3D硬件成本趨近于2D時(shí),在整個(gè)系統(tǒng)、產(chǎn)品中差異就趨近于零,用戶就會(huì)選擇更優(yōu)性能,也將迎來(lái)全面取代2D的拐點(diǎn)。我們認(rèn)為現(xiàn)在成本已經(jīng)非常接近,預(yù)計(jì)明年或者后年就會(huì)迎來(lái)拐點(diǎn)。
3D整個(gè)視覺(jué)的應(yīng)用肯定從一些領(lǐng)域開(kāi)始,逐步延伸,需要一個(gè)過(guò)程。但是在這個(gè)過(guò)程當(dāng)中,我們作為技術(shù)公司,需要與行業(yè)市場(chǎng)結(jié)合,并且在結(jié)合過(guò)程中逐步完成技術(shù)的升級(jí)和產(chǎn)品的迭代,最終形成不斷演進(jìn)的能力。
而公司自身的整個(gè)技術(shù)研發(fā)體系是非常重要的。我們的思路是,從市場(chǎng)需求出發(fā),將技術(shù)規(guī)劃分成兩部分,一個(gè)是實(shí)現(xiàn)技術(shù)領(lǐng)先性的規(guī)劃,另外一個(gè)是支撐產(chǎn)品落地的規(guī)劃,通過(guò)新技術(shù)的預(yù)研和產(chǎn)品驗(yàn)證,再加上產(chǎn)品研發(fā)的瀑布式迭代方式,形成可規(guī)模量產(chǎn)的產(chǎn)品。我們與高校和科學(xué)家團(tuán)隊(duì)都有非常緊密的合作。同時(shí),底層有我們?nèi)S視覺(jué)工程化平臺(tái)進(jìn)行支撐。
我們將三維視覺(jué)工程化平臺(tái)分成四部分,第一是光學(xué)、另外一部分是算法,我們認(rèn)為光學(xué)和算法是密不可分的,我們有原型驗(yàn)證和可靠性驗(yàn)證的設(shè)備。另外機(jī)械和電氣,也是要做完整的應(yīng)用產(chǎn)品和解決方案,所必不可少的。光學(xué)、算法、機(jī)械和電器共同形成一個(gè)產(chǎn)品的迭代和技術(shù)發(fā)展。
最后三維視覺(jué)是一個(gè)完整的產(chǎn)業(yè)鏈,上游最前面是光學(xué)的起點(diǎn),不管是結(jié)構(gòu)光,還是各種各樣光學(xué)器件,中間會(huì)有整個(gè)模組裝配環(huán)節(jié),我們從成像系統(tǒng)設(shè)計(jì)開(kāi)始,再上層光學(xué)的相機(jī)系統(tǒng)加上3D算法形成一個(gè)完整3D軟硬一體的模組,提供完整的算法能力,再嵌入到產(chǎn)品當(dāng)中,去支撐下游的客戶或者合作伙伴,形成完整的行業(yè)解決方案。
我們認(rèn)為3D視覺(jué)發(fā)展到現(xiàn)在,光學(xué)系統(tǒng)和算法系統(tǒng)的緊密結(jié)合,或者一個(gè)交互的一體設(shè)計(jì)是最終能夠落地應(yīng)用,能更快速在產(chǎn)業(yè)當(dāng)中賦能最重要的思路,兩者之間是沒(méi)辦法分開(kāi)的。
對(duì)于3D視覺(jué)的應(yīng)用,將來(lái)還會(huì)在哪些方面產(chǎn)生更多的可能的變革,我們想法相對(duì)謹(jǐn)慎。主要是做場(chǎng)景重建、重建之后的結(jié)構(gòu)化和數(shù)據(jù)化,也可以做醫(yī)療影像,或者做一些物體,我們整個(gè)標(biāo)的是人。
我們的理念一直是人的智能,希望最終可以實(shí)現(xiàn)從輕配合到無(wú)配合,實(shí)現(xiàn)機(jī)器跟人的交互變得像人與人一樣自然。我們探究的是人如何去認(rèn)識(shí)人、跟人交互。首先想要識(shí)別身份,然后對(duì)人的行為想法進(jìn)行預(yù)測(cè),并且不斷沿著這個(gè)路徑進(jìn)行演進(jìn)。從整個(gè)技術(shù)架構(gòu)來(lái)講,我們以“人”為標(biāo)的物,我們最終希望能夠做到對(duì)于人,對(duì)于物理世界中一個(gè)3D存在的身份、行為、軌跡的精細(xì)數(shù)字化的認(rèn)知。
技術(shù)演進(jìn)路徑上與一般的圖象識(shí)別不同的是,3D有數(shù)據(jù)、有算法,同時(shí)有傳感。從數(shù)據(jù)角度需要海量實(shí)戰(zhàn)的3D數(shù)據(jù)采集和標(biāo)注,要求能夠建立3D數(shù)據(jù)庫(kù)和相關(guān)的標(biāo)準(zhǔn)。在算法層面,包括人臉識(shí)別、表情識(shí)別、動(dòng)作捕捉、體貌,從傳感器側(cè)面,需要更好地通過(guò)低成本的硬件去實(shí)現(xiàn)3D原始數(shù)據(jù)的獲取。
最終通過(guò)結(jié)構(gòu)光的方式,包括雙目,我們希望能夠在遠(yuǎn)距離下得到3D更高的感知精度,以覆蓋更大場(chǎng)景,在各種各樣光照條件下都能獲得3D數(shù)據(jù),且能獲取到更高分辨率的數(shù)據(jù),更能做到更小更低成本,最后都將更好地應(yīng)用和服務(wù)于行業(yè)。