談社交AR技術(shù)的實(shí)現(xiàn)原理 由技術(shù)驅(qū)動(dòng)世界
如何AR技術(shù)開始崛起,比起VR技術(shù)更有前景。新型社交AR的興起引起了大家的注意,大家都很好奇他是如何實(shí)現(xiàn)的。本文就來淺談一下社交AR技術(shù)的實(shí)現(xiàn)原理。
2014年,一家名為L(zhǎng)ooksery的烏克蘭初創(chuàng)公司利用這項(xiàng)技術(shù)為消費(fèi)者創(chuàng)建了一個(gè)數(shù)字化妝自拍應(yīng)用程序,而該應(yīng)用程序的下載量超過了一百萬次。Snapchat發(fā)現(xiàn)了潛在的巨大市場(chǎng),并且斥資收購了Looksery。6個(gè)月后,這為Snapchat帶來了現(xiàn)在十分知名的“Lens”產(chǎn)品。在另一邊廂,F(xiàn)acebook感覺到競(jìng)爭(zhēng)對(duì)手的危險(xiǎn),他們?cè)谶@之后的第二年收購了MSQRD應(yīng)用程序背后的團(tuán)隊(duì)。“自拍AR”這種以人為核心的計(jì)算機(jī)視覺突然在世界范圍內(nèi)引起了轟動(dòng),成為了兩大社交媒體巨頭之間斗爭(zhēng)的關(guān)鍵武器。
在2017年,蘋果和Snapchat都第一次推出了基于SLAM技術(shù)的ARKit和World Lenses(允許設(shè)備在平面上置放數(shù)字對(duì)象),而Facebook則為市場(chǎng)帶來了AR Studio(允許開發(fā)者創(chuàng)建自己的AR濾鏡)。然而,有消息稱相關(guān)的努力尚未成為用戶之間極速躥紅。
那么接下來是什么呢?對(duì)我們來說,這是新型社交AR的興起。社交AR不僅能夠作為自拍AR階段和眼鏡AR之間的橋梁,而其潛在相關(guān)的技術(shù)有可能成為未來的關(guān)鍵組成部分。要做到這一點(diǎn),我們需要開發(fā)一個(gè)神經(jīng)網(wǎng)絡(luò),在所有配置中(不僅只是自拍)實(shí)時(shí)檢測(cè)和追蹤人像。然而,這向我們提出了一系列的挑戰(zhàn)。
對(duì)于利用前置攝像頭實(shí)現(xiàn)的自拍AR追蹤,其基本上是識(shí)別和追蹤人像時(shí)的一個(gè)特殊情況。從前置攝像頭轉(zhuǎn)移到后置攝像頭,我們將有可能遇上其他情況,如:
對(duì)象更有可能偏離相對(duì)于攝像頭的中心位置。
他們可以出現(xiàn)在不同的距離,或以不同的大小呈現(xiàn)。
他們往往不是面向攝像頭,所以我們不能只是尋找人臉,而是要尋找頭部,頭發(fā),帽子和各種相關(guān)特征。
視圖中經(jīng)常出現(xiàn)多個(gè)人像。
為了實(shí)現(xiàn)我們的技術(shù),以上是我們需要克服的事項(xiàng)。那么,技術(shù)的工作原理到底是什么呢?下面我們將其分解成4個(gè)部分:
1. 多個(gè)頭部與身體的檢測(cè)
我們的技術(shù)能夠?qū)崟r(shí)檢測(cè)多個(gè)頭部與身體。在提供用戶的攝像頭圖像后,應(yīng)用程序可以識(shí)別圖像中顯示頭部及其相應(yīng)身體的區(qū)域。
這能夠做什么呢?這允許我們根據(jù)頭部大小來估計(jì)人像的距離。對(duì)于身體,我們可以錨定人像運(yùn)動(dòng)的任何視覺信息。
2. 場(chǎng)景/視圖中的持續(xù)性個(gè)人追蹤為了追蹤場(chǎng)景中人像的動(dòng)作與特征,我們根據(jù)多個(gè)幀來比較多個(gè)頭部和身體的信息。這樣,即使他們是被其他人包圍,即使他們離開攝像頭視圖后又重新進(jìn)入,我們也能夠?qū)⒁曈X信息固定在特定的人像身上。
3. 單獨(dú)背景與全身細(xì)分
對(duì)于每個(gè)目標(biāo)追蹤人像,我們會(huì)進(jìn)一步分類屬于面部,皮膚,頭發(fā),衣服和背景的像素。就這樣,我們能夠清晰地分離開一系列不同的圖層,然后我們可以將其用于AR效果的高級(jí)混合。如果不是這樣,設(shè)備只能通過光場(chǎng)或深度感知技術(shù)實(shí)現(xiàn),而這對(duì)當(dāng)前的智能手機(jī)而言并不實(shí)際。
4.編輯器我們專門培訓(xùn)了我們的神經(jīng)網(wǎng)絡(luò),令其產(chǎn)生任何設(shè)計(jì)師都可以輕松進(jìn)行交互和操作的圖層。由于網(wǎng)絡(luò)基于簡(jiǎn)單的數(shù)學(xué)計(jì)算,因此我們很容易在桌面和移動(dòng)設(shè)備上以相同的質(zhì)量實(shí)現(xiàn)。這使得設(shè)計(jì)人員能夠使用我們的自定義編輯器來快速迭代和設(shè)計(jì)面向Spilly應(yīng)用程序的視覺效果。
以上是具體的工作原理,下面讓我們看看技術(shù)的部分用例:
我們開發(fā)的三款社交AR應(yīng)用程序:鼓勵(lì)人們聚在一起,扮演自己喜歡的明星,來回作弄對(duì)方等等。
游戲體驗(yàn):人們現(xiàn)在可以成為游戲中的可定位和可操作的角色。
時(shí)尚應(yīng)用:將衣服/濾鏡應(yīng)用至用戶身上,不僅有趣,而且你可以進(jìn)行虛擬“試穿”和購買。
把你自己放入第三方內(nèi)容:借助我們的全圖細(xì)分技術(shù),用戶可以將頭部置放于任意視頻中的人像身上,從而完成“頭部移植手術(shù)”。不知道你想不想成為最愛電影中的主角呢?
潛在的用例很有很多。在眼鏡AR時(shí)代,人們很可能成為一系列相互作用的情境觸發(fā)器,如室內(nèi)生活情景(如特定于某人的提醒,比方說提醒丈夫做早餐),個(gè)人細(xì)節(jié),或者說更豐富的游戲體驗(yàn)。接下來,我們可能會(huì)看到涉及商業(yè)交易的戶外交互(如“分類廣告網(wǎng)站”項(xiàng)目的個(gè)人付款),以及視覺增強(qiáng),你可以期待Tumblr和Pinterest(皆為圖片分享應(yīng)用)背后的相同動(dòng)機(jī)擴(kuò)展到你個(gè)人身上。
簡(jiǎn)而言之,人管理著這個(gè)由技術(shù)驅(qū)動(dòng)的世界,而這種以人為中心的視覺技術(shù)進(jìn)步只會(huì)進(jìn)一步將人與技術(shù)聯(lián)系在一起。我們正在走向這么一個(gè)未來:以智能手機(jī)為基礎(chǔ)的商業(yè),娛樂和自我表達(dá)將從屏幕束縛中解放出來,數(shù)字世界將直接集成至我們面前的世界。我們需要謹(jǐn)慎行事,但這個(gè)潛在未來的價(jià)值已經(jīng)清晰可見。