手機(jī)‘3D 照片’功能背后的積累,是 3D 大眾化的通行證?
3月4日,F(xiàn)acebook AI 發(fā)布博客,表示通過神經(jīng)網(wǎng)絡(luò)訓(xùn)練,現(xiàn)在 Facebook 已經(jīng)可以將普通單攝手機(jī)拍攝的 2D 照片,轉(zhuǎn)化成具有 3D 效果的圖片。新功能需要新玩法,兩年前,F(xiàn)acebook 推出了 3D 照片的新功能,正是通過雙攝手機(jī)的‘肖像模式’,讓 2D 照片出現(xiàn)‘部分 3D’的效果。遺憾的是,當(dāng)時(shí)擁有雙攝旗艦機(jī)的人還是少數(shù)的。除了用戶在手機(jī)頁(yè)面停留更長(zhǎng)時(shí)間,‘3D 照片’功能背后的積累,可以落地在更多場(chǎng)景,例如 AR 場(chǎng)景以及無人駕駛。鑒于 Facebook 對(duì)于 VR 的野心依舊,這項(xiàng)新功能將如何實(shí)現(xiàn)扎克伯格‘10 億人共 VR’的夢(mèng)想,也令人頗為期待。
2D 照片如何變 3D
同樣是 3D 照片,兩年時(shí)間有什么不一樣的?答案是,深度信息。2018 年的 3D 照片功能要依賴當(dāng)時(shí)手機(jī)雙攝‘肖像模式’帶來的深度信息,而現(xiàn)在 Facebook AI 可以直接將任何時(shí)候拍攝的 2D 照片轉(zhuǎn)化出 3D 效果,不需要深度信息。
拋開深度信息來制造 3D 效果的照片,需要面對(duì)兩個(gè)挑戰(zhàn),一個(gè)是訓(xùn)練模型來推測(cè)各種物體的 3D 位置,另一個(gè)是優(yōu)化系統(tǒng)來讓各種移動(dòng)設(shè)備都能在短時(shí)間內(nèi)將功能跑起來。為此,團(tuán)隊(duì)使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)訓(xùn)練了數(shù)百萬對(duì)的 3D 照片以及對(duì)應(yīng)的深度信息;同時(shí),利用 Facebook AI 團(tuán)隊(duì)之前的開發(fā) FBNet 和 ChamNet 的優(yōu)化方式,來將功能推廣到更多的設(shè)備上。
通過這個(gè)方式,給出任意一張標(biāo)準(zhǔn)的 RGB 圖像,卷積神經(jīng)網(wǎng)絡(luò)可以估算出任一像素到攝像頭的距離。目前,iPhone 7 及之后的設(shè)備,都可以使用 3D 照片功能。
在攻克 2D 照片的深度信息預(yù)測(cè)算法之后,F(xiàn)acebook AI 團(tuán)隊(duì)表示正在嘗試將實(shí)驗(yàn)擴(kuò)大到視頻范圍,后者的挑戰(zhàn)在于每一幀畫面的深度必須與前后幀的保持一致,同時(shí)好消息是,由于視頻通常有同一物體的不同視角,能夠用來提供更精確的深度信息預(yù)測(cè)。而這些嘗試將讓團(tuán)隊(duì)強(qiáng)化算法在深度、物體表面以及空間方面的推測(cè)能力,并最終將其使用到實(shí)時(shí)場(chǎng)景之中,例如手機(jī)端的 AR 應(yīng)用上。
如果通過這些方式,能讓機(jī)器更好的理解立體的現(xiàn)實(shí)環(huán)境,也會(huì)對(duì)無人駕駛車輛或者無人機(jī)的導(dǎo)航提供幫助。
YouTube 和 3D 民主化
十五年前的 2005 年,YouTube 的三位創(chuàng)始人創(chuàng)立這個(gè)平臺(tái)的時(shí)候,最開始的想法是做成視頻相親網(wǎng)站,很難說當(dāng)時(shí)如果他們堅(jiān)持那個(gè)方向,是不是還會(huì)變成現(xiàn)在這個(gè)視頻界的谷歌。當(dāng)時(shí)數(shù)碼設(shè)備尚未流行,員工經(jīng)常需要跑到用戶家里去取用戶想要上傳的視頻的光盤,拿回到公司幫忙上傳,可想而知平臺(tái)前幾年發(fā)展有多艱難。如果沒有后來智能手機(jī)的爆發(fā),估計(jì)也不會(huì)有現(xiàn)在的 YouTube 了。
從 2014 年收購(gòu) Oculus,F(xiàn)acebook 在 VR 上下了重注,但是行業(yè)發(fā)展顯然沒有扎克伯格當(dāng)時(shí)簽支票時(shí)預(yù)料的那么快。視頻 3D 效果的創(chuàng)意,其實(shí)早在幾年前 Facebook 360 視頻團(tuán)隊(duì)就曾經(jīng)嘗試過,由于 Facebook 360 項(xiàng)目最終停滯,相關(guān)的內(nèi)容也難以見到了。
這折射了 VR 和 AR 行業(yè)發(fā)展的一個(gè)瓶頸,如果普通用戶無法用手機(jī)便捷的創(chuàng)建 3D 內(nèi)容,那么他們可能不會(huì)對(duì) VR 或者 AR 產(chǎn)生太大的興趣。雖然收購(gòu)了一家又一家 VR 游戲公司,但是用 PGC 的方式生產(chǎn) VR 內(nèi)容,畢竟速度和數(shù)量都和視頻的 UGC 不在一個(gè)數(shù)量級(jí)上。
另一個(gè)對(duì) VR 和 AR 抱以厚望的巨頭谷歌,曾經(jīng)收購(gòu)過 VR 第一個(gè)熱門應(yīng)用 Tilt Brush,后者堪稱是 VR 時(shí)代的‘畫圖板’。該應(yīng)用曾經(jīng)吸引了不少國(guó)際知名藝術(shù)家,在 VR 中揮毫潑墨,吸引了普通用戶。但是問題還在于,Tilt Brush 還是需要戴上 VR 頭顯才能使用,依然有局限性。
帶來可能解決方案的,反而是一直悶聲積累 AR 實(shí)力的蘋果公司,后者在 iPhone X 上使用了前置 3D 攝像頭模組,用戶不僅可以利用其解鎖手機(jī),同時(shí)還能創(chuàng)建一個(gè)模仿自己臉部動(dòng)態(tài)的 3D 動(dòng)畫形象。不過,蘋果對(duì)于 iPhone‘齊劉?!?3D 攝像頭功能控制的很嚴(yán),無法任意使用,好在 Android 手機(jī)廠商隨后跟進(jìn),將前置 3D 攝像頭變成標(biāo)配。曾經(jīng)有人用小米手機(jī)的前置 3D 攝像頭,掃描出物體的大致 3D 模型。
如果喬布斯看到最新的 iPhone 11 Pro 后面的三顆吐出來的‘浴霸’造型攝像頭,不知道會(huì)作何感想。當(dāng)然,不管‘喬幫主’可能會(huì)怎么看,攝像頭個(gè)數(shù)代表手機(jī)檔次,已經(jīng)成為一個(gè)潛規(guī)則。雖然犧牲了部分造型,但確實(shí)給手機(jī)帶來了新的功能,例如獲得深度信息,這也是為什么出現(xiàn)了 iPhone 擁有雙攝之后,出現(xiàn)了能夠虛化背景的‘肖像模式’。