深度學(xué)習(xí)能否運(yùn)用到VR上？

時(shí)間：2020-07-17 07:57:01

關(guān)鍵字： alphago dnn vr 深度學(xué)習(xí)

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀] 隨著谷歌人工智能AlphaGo與李世石的五局人機(jī)大戰(zhàn)落下帷幕，阿法狗最終以4：1大比分戰(zhàn)神李世石，人們對于阿法狗的好奇心被推向了高潮。阿法狗也將深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)即DNN的強(qiáng)大能力展示在了人們面前

隨著谷歌人工智能AlphaGo與李世石的五局人機(jī)大戰(zhàn)落下帷幕，阿法狗最終以4：1大比分戰(zhàn)神李世石，人們對于阿法狗的好奇心被推向了高潮。阿法狗也將深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)即DNN的強(qiáng)大能力展示在了人們面前。

| 什么是DNN？

那到底什么是DNN呢？DNN是近年人工智能領(lǐng)域的熱門，在語音識(shí)別、自動(dòng)駕駛、筆跡識(shí)別等方面的應(yīng)用都極為成功。在人工智能領(lǐng)域，神經(jīng)網(wǎng)絡(luò)是一種模擬生物神經(jīng)系統(tǒng)的模型，由許多單向連接的神經(jīng)元組成，可根據(jù)鏈接神經(jīng)元的各種參數(shù)將輸入信號轉(zhuǎn)換為輸出信號。相比于普通的神經(jīng)網(wǎng)絡(luò)，深度神經(jīng)網(wǎng)絡(luò)（DNN）使用隱含的多層復(fù)雜結(jié)構(gòu)，以及非線性變換，來表達(dá)對數(shù)據(jù)的高度抽象。這些特征更接近于人類大腦，更容易實(shí)現(xiàn)人類大腦的某些功能，例如下圍棋所需要的腦功能。

阿法狗應(yīng)用了兩種深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)，即“策略網(wǎng)絡(luò)”和“價(jià)值網(wǎng)絡(luò)”來擬合局面策略函數(shù)和評估函數(shù)，可以說這就是阿法狗的兩個(gè)大腦。阿法狗的勝利引爆了DNN這一概念，在大數(shù)據(jù)當(dāng)?shù)赖慕裉?，深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)已經(jīng)被應(yīng)用到非常多的領(lǐng)域，成為了揭示科學(xué)原理、升級現(xiàn)有產(chǎn)業(yè)商業(yè)模式的重要工具。

| DNN如何應(yīng)用在手勢識(shí)別中呢？

那么如此炫酷的DNN能否應(yīng)用在大熱的VR行業(yè)？答案是肯定的。目前VR領(lǐng)域中應(yīng)用到DNN技術(shù)的包括語音識(shí)別、手勢識(shí)別等方面，筆者在這里主要介紹一下手勢識(shí)別算法中的DNN。

傳統(tǒng)的手勢識(shí)別方法主要有兩種：基于數(shù)據(jù)手套的手勢識(shí)別方法、基于計(jì)算機(jī)視覺的手勢識(shí)別方法。

而基于計(jì)算機(jī)視覺的手勢識(shí)別方法以其不依賴于設(shè)備，更自然的人機(jī)交互效果，更好的沉浸感成為當(dāng)今研究的熱點(diǎn)?；谟?jì)算機(jī)視覺手勢識(shí)別從攝像機(jī)中得到手勢圖像信息，經(jīng)過適當(dāng)?shù)臄?shù)據(jù)預(yù)處理之后從圖像中分割出手勢，對分割得到的手勢進(jìn)行特征提取后，利用已經(jīng)建立好的手勢模板進(jìn)行分類。

傳統(tǒng)的分類方式有模板匹配、基于指尖檢測方法等，但這些方法都需要人工從圖像提取出目標(biāo)特征，編寫模板來匹配。隨著深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)被提出，基于深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)（DNN）的手勢識(shí)別也應(yīng)運(yùn)而生，這種手勢識(shí)別算法相比于傳統(tǒng)手勢識(shí)別算法在各個(gè)方面均有非常大的優(yōu)勢。

深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的工作方式來自于同人腦視覺機(jī)理的類比學(xué)習(xí)，這種從原始輸入開始向更高層次不停抽象迭代的過程賦予了該模型高度抽象的能力，使得深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)能夠非常有效地從大量有標(biāo)簽數(shù)據(jù)中深度提取數(shù)據(jù)的特征信息，充分挖掘數(shù)據(jù)的內(nèi)在屬性和有價(jià)值的表征數(shù)據(jù)，然后組合低層特征為更加抽象的高層特征，而高級特征則是數(shù)據(jù)更高級、更本質(zhì)的描述，由此可以在分類問題上得到更優(yōu)的結(jié)果。

眾所周知，VR行業(yè)面臨的一大技術(shù)難題就是海量數(shù)據(jù)的處理，對于手勢識(shí)別技術(shù)更是如此，手部有非常多的關(guān)節(jié)，需要非常強(qiáng)的識(shí)別能力才可以準(zhǔn)確的識(shí)別每個(gè)精細(xì)動(dòng)作。而深度學(xué)習(xí)模型的多隱藏層結(jié)構(gòu)使得模型能有效利用海量數(shù)據(jù)進(jìn)行訓(xùn)練，所使用數(shù)據(jù)越多模型性能越高，非常適合在VR環(huán)境下做手勢識(shí)別。

基于計(jì)算機(jī)視覺的手勢識(shí)別中，傳統(tǒng)算法無法直接有效地從圖像中提取出對目標(biāo)有用的信息。而深度學(xué)習(xí)的學(xué)習(xí)能力卻異常強(qiáng)大，即使是復(fù)雜低分辨率圖像也能夠很好的提取出目標(biāo)深度特征。基于DNN的手勢識(shí)別所需的圖像背景并不需要固定，算法甚至在一定范圍內(nèi)允許運(yùn)動(dòng)背景的存在，從而提高了識(shí)別的環(huán)境耐受力和精細(xì)度。

| DNN在手勢識(shí)別中如何實(shí)現(xiàn)？

接下來筆者將介紹一下具體的實(shí)現(xiàn)方法。

傳統(tǒng)的識(shí)別系統(tǒng)流程大體上可以分成檢測、識(shí)別、跟蹤這三個(gè)步驟，具體實(shí)現(xiàn)流程是：傳感器獲取信息，預(yù)處理，特征提取，特征選擇，再到最后的推理、預(yù)測或者識(shí)別。通常認(rèn)為最后一部分是屬于機(jī)器學(xué)習(xí)的部分，這部分是整個(gè)系統(tǒng)的精髓所在，它能否從數(shù)據(jù)中學(xué)到有效的知識(shí)直接關(guān)系到整個(gè)系統(tǒng)能否按照人們期望的那樣工作，但同時(shí)也存在前期特征提取或者選擇不好的情況，這樣會(huì)影響系統(tǒng)性能。

而基于DNN的手勢識(shí)別就是讓機(jī)器自己去提取特征，不需要手工特征提取，強(qiáng)大的學(xué)習(xí)能力使得模型在復(fù)雜背景下也能取得理想效果，其手勢識(shí)別過程如下：

首先創(chuàng)建手勢識(shí)別采集系統(tǒng)，做運(yùn)動(dòng)目標(biāo)檢測，并在檢測的同時(shí)提取出前景的即運(yùn)動(dòng)目標(biāo)的部分信息，獲得手勢圖像。采集到手勢圖像之后根據(jù)不同應(yīng)用場景選擇合適的網(wǎng)絡(luò)協(xié)議，把數(shù)據(jù)傳輸?shù)接?jì)算平臺(tái)利用深度學(xué)習(xí)算法進(jìn)行復(fù)雜背景手勢識(shí)別，并最終給出手勢識(shí)別結(jié)果。

| 基于DNN實(shí)現(xiàn)的VR會(huì)是什么樣的？

基于DNN算法的思想實(shí)現(xiàn)的VR產(chǎn)品，并使用單機(jī)GPU方法來加速深度網(wǎng)絡(luò)的訓(xùn)練和識(shí)別工作。手勢識(shí)別模組可以使用深度攝像頭實(shí)現(xiàn)手部近距離3D成像，結(jié)合DNN自主研發(fā)了一套數(shù)據(jù)處理算法，實(shí)現(xiàn)了高精度實(shí)時(shí)手部動(dòng)作識(shí)別，既能跟蹤單個(gè)手指，識(shí)別每個(gè)手指細(xì)微的動(dòng)作，也可擴(kuò)展至跟蹤多只手。

這樣的VR產(chǎn)品的手勢識(shí)別具有捕捉精度高，響應(yīng)速度快，靈敏度高，可以不受環(huán)境光線強(qiáng)弱影響，室內(nèi)室外都可以使用。

不過目前市面上幾乎沒有基于DNN的手勢識(shí)別產(chǎn)品。筆者所知的G-Wearables自主研發(fā)的StepVR產(chǎn)品就是基于DNN算法實(shí)現(xiàn)的，但還未見到實(shí)物，可以期待一下。