手勢(shì)識(shí)別會(huì)成為VR頭顯主流的交互方式嗎
(文章來(lái)源:VR陀螺)
隨著Oculus將于2020年初在Quest中加入手勢(shì)識(shí)別功能這一消息發(fā)布,手勢(shì)交互終于打破局面,開(kāi)始真正走向消費(fèi)端。此次Oculus Quest手勢(shì)識(shí)別使用了基于計(jì)算機(jī)視覺(jué)的手勢(shì)識(shí)別的技術(shù)方案。(感謝凌感科技uSens費(fèi)越博士對(duì)本文技術(shù)部分的支持)
VR陀螺從費(fèi)越博士口中了解到,目前基于計(jì)算機(jī)視覺(jué)的手勢(shì)方案實(shí)際上也分為兩種:一種是用深度攝像頭,一種是用一個(gè)或者多個(gè)普通攝像頭實(shí)現(xiàn)。而其中深度攝像頭的方案又分為兩種,TOF(Time of Flight,光飛時(shí)間)和結(jié)構(gòu)光。實(shí)際上結(jié)構(gòu)光,或者TOF輸出的東西基本一樣,都是一張深度圖。
相對(duì)于兩種使用深度攝像頭的方案,基于一個(gè)或多個(gè)普通攝像頭實(shí)現(xiàn)的手勢(shì)識(shí)別難度更高,但得益于技術(shù)發(fā)展,其在精度、成本綜合性能上正在成為主流。 業(yè)內(nèi)的Leap MoTIon、凌感uSens就是使用這種方案,Oculus Quest也是使用原有的用于SLAM和手柄跟蹤的四個(gè)灰度攝像頭用深度學(xué)習(xí)算法來(lái)實(shí)現(xiàn)的手勢(shì)識(shí)別。
凌感uSens自2015年就開(kāi)始使用深度學(xué)習(xí)技術(shù)實(shí)現(xiàn)手勢(shì)識(shí)別,并在2017年發(fā)布了和Oculus Quest類似的基于灰度攝像頭的手勢(shì)識(shí)別及SLAM方案。 不久前凌感還研發(fā)發(fā)布了單目RGB相機(jī)上的三維手勢(shì)骨骼識(shí)別,可識(shí)別手部全部22個(gè)關(guān)節(jié)點(diǎn)的26DOF(26自由度)信息,關(guān)節(jié)點(diǎn)包括3D位置信息和3D旋轉(zhuǎn)信息。在單目RGB相機(jī)上實(shí)現(xiàn)三維手勢(shì)骨骼識(shí)別相對(duì)于多個(gè)灰度相機(jī)的方案來(lái)說(shuō)算法的難度更高。
近年來(lái)TOF方案在手機(jī)上應(yīng)用越來(lái)越廣泛,也是最容易實(shí)現(xiàn)深度信息的方案,但在VR、AR設(shè)備上卻幾乎沒(méi)有。原因可以從以下幾個(gè)方面來(lái)看:另外,對(duì)手勢(shì)識(shí)別精度起到?jīng)Q定性的還有兩個(gè)因素:一個(gè)是模型是否好,只有好的模型才能預(yù)測(cè)出來(lái)更多3D的點(diǎn)。第二是需要有足夠的高精度的數(shù)據(jù),才能訓(xùn)練出來(lái)好的模型。
實(shí)際上在使用基于計(jì)算機(jī)視覺(jué)方案之前,Oculus Touch手柄已經(jīng)實(shí)現(xiàn)了一部分手勢(shì)動(dòng)作,如握拳、豎拇指、開(kāi)槍等手勢(shì),包括Valve Index的指虎手柄,也是為了在游戲中呈現(xiàn)更為自然的手部動(dòng)作。Quest加入手勢(shì)識(shí)別,意味著這一技術(shù)終于真正開(kāi)始面向消費(fèi)端用戶,也將帶來(lái)更多開(kāi)發(fā)者針對(duì)這一交互開(kāi)發(fā)探索出更多的內(nèi)容形態(tài)。
費(fèi)越也提到,凌感的手勢(shì)識(shí)別目前主要應(yīng)用在三大領(lǐng)域,以AR、VR、手機(jī)為主的2C領(lǐng)域,汽車領(lǐng)域以及工業(yè)自動(dòng)化領(lǐng)域,其中VR、AR、手機(jī)領(lǐng)域需求增長(zhǎng)非常迅速?!敖换サ淖罱K形態(tài)不需要定義,他做的就是人在真實(shí)世界里面要做的事情?!盫R、AR的獨(dú)特之處在于沉浸感,而在沉浸環(huán)境中,最自然的交互莫過(guò)于與現(xiàn)實(shí)中一樣,揮手打招呼、猜拳、握手、抓取、擊掌……
從智能終端的發(fā)展來(lái)看,從PC到手機(jī),一切都在簡(jiǎn)化,特別是在智能手機(jī)時(shí)代,交互簡(jiǎn)化到只需要滑動(dòng)、點(diǎn)擊,就連2、3歲的小孩都能輕易上手。VR、AR的交互復(fù)雜,也代表著用戶的學(xué)習(xí)成本越高,同時(shí)也容易“出戲”?,F(xiàn)在除了純觀影類的內(nèi)容之外,幾乎所有帶交互內(nèi)容都需要一定的學(xué)習(xí)過(guò)程,用戶需要在體驗(yàn)過(guò)程中記住每個(gè)按鍵所對(duì)應(yīng)的功能。
而在諸如模擬、社交類這類的內(nèi)容中,越接近真實(shí)的場(chǎng)景對(duì)于手勢(shì)越有優(yōu)勢(shì),開(kāi)發(fā)者可拓展性也更強(qiáng)。手勢(shì)在需要觸覺(jué)反饋的體驗(yàn)上無(wú)法取代手柄,而手柄也無(wú)法自然地實(shí)現(xiàn)手部動(dòng)作的呈現(xiàn)以及復(fù)雜的手部姿態(tài),但從毋庸置疑的是未來(lái)手勢(shì)將會(huì)變成XR設(shè)備中不可或缺的一種交互方式,越來(lái)越普及。