當(dāng)前位置:首頁 > 智能硬件 > 人工智能AI
[導(dǎo)讀] 隨著谷歌人工智能AlphaGo與李世石的五局人機大戰(zhàn)落下帷幕,阿法狗最終以4:1大比分戰(zhàn)神李世石,人們對于阿法狗的好奇心被推向了高潮。阿法狗也將深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)即DNN的強大能力展示在了人們面前

隨著谷歌人工智能AlphaGo與李世石的五局人機大戰(zhàn)落下帷幕,阿法狗最終以4:1大比分戰(zhàn)神李世石,人們對于阿法狗的好奇心被推向了高潮。阿法狗也將深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)即DNN的強大能力展示在了人們面前。

| 什么是DNN?

那到底什么是DNN呢?DNN是近年人工智能領(lǐng)域的熱門,在語音識別、自動駕駛、筆跡識別等方面的應(yīng)用都極為成功。在人工智能領(lǐng)域,神經(jīng)網(wǎng)絡(luò)是一種模擬生物神經(jīng)系統(tǒng)的模型,由許多單向連接的神經(jīng)元組成,可根據(jù)鏈接神經(jīng)元的各種參數(shù)將輸入信號轉(zhuǎn)換為輸出信號。相比于普通的神經(jīng)網(wǎng)絡(luò),深度神經(jīng)網(wǎng)絡(luò)(DNN)使用隱含的多層復(fù)雜結(jié)構(gòu),以及非線性變換,來表達對數(shù)據(jù)的高度抽象。這些特征更接近于人類大腦,更容易實現(xiàn)人類大腦的某些功能,例如下圍棋所需要的腦功能。

阿法狗應(yīng)用了兩種深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),即“策略網(wǎng)絡(luò)”和“價值網(wǎng)絡(luò)”來擬合局面策略函數(shù)和評估函數(shù),可以說這就是阿法狗的兩個大腦。阿法狗的勝利引爆了DNN這一概念,在大數(shù)據(jù)當(dāng)?shù)赖慕裉?,深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)已經(jīng)被應(yīng)用到非常多的領(lǐng)域,成為了揭示科學(xué)原理、升級現(xiàn)有產(chǎn)業(yè)商業(yè)模式的重要工具。

| DNN如何應(yīng)用在手勢識別中呢?

那么如此炫酷的DNN能否應(yīng)用在大熱的VR行業(yè)?答案是肯定的。目前VR領(lǐng)域中應(yīng)用到DNN技術(shù)的包括語音識別、手勢識別等方面,筆者在這里主要介紹一下手勢識別算法中的DNN。

傳統(tǒng)的手勢識別方法主要有兩種:基于數(shù)據(jù)手套的手勢識別方法、基于計算機視覺的手勢識別方法。

而基于計算機視覺的手勢識別方法以其不依賴于設(shè)備,更自然的人機交互效果,更好的沉浸感成為當(dāng)今研究的熱點?;谟嬎銠C視覺手勢識別從攝像機中得到手勢圖像信息,經(jīng)過適當(dāng)?shù)臄?shù)據(jù)預(yù)處理之后從圖像中分割出手勢,對分割得到的手勢進行特征提取后,利用已經(jīng)建立好的手勢模板進行分類。

傳統(tǒng)的分類方式有模板匹配、基于指尖檢測方法等,但這些方法都需要人工從圖像提取出目標(biāo)特征,編寫模板來匹配。隨著深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)被提出,基于深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)(DNN)的手勢識別也應(yīng)運而生,這種手勢識別算法相比于傳統(tǒng)手勢識別算法在各個方面均有非常大的優(yōu)勢。

深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的工作方式來自于同人腦視覺機理的類比學(xué)習(xí),這種從原始輸入開始向更高層次不停抽象迭代的過程賦予了該模型高度抽象的能力,使得深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)能夠非常有效地從大量有標(biāo)簽數(shù)據(jù)中深度提取數(shù)據(jù)的特征信息,充分挖掘數(shù)據(jù)的內(nèi)在屬性和有價值的表征數(shù)據(jù),然后組合低層特征為更加抽象的高層特征,而高級特征則是數(shù)據(jù)更高級、更本質(zhì)的描述,由此可以在分類問題上得到更優(yōu)的結(jié)果。

眾所周知,VR行業(yè)面臨的一大技術(shù)難題就是海量數(shù)據(jù)的處理,對于手勢識別技術(shù)更是如此,手部有非常多的關(guān)節(jié),需要非常強的識別能力才可以準(zhǔn)確的識別每個精細動作。而深度學(xué)習(xí)模型的多隱藏層結(jié)構(gòu)使得模型能有效利用海量數(shù)據(jù)進行訓(xùn)練,所使用數(shù)據(jù)越多模型性能越高,非常適合在VR環(huán)境下做手勢識別。

基于計算機視覺的手勢識別中,傳統(tǒng)算法無法直接有效地從圖像中提取出對目標(biāo)有用的信息。而深度學(xué)習(xí)的學(xué)習(xí)能力卻異常強大,即使是復(fù)雜低分辨率圖像也能夠很好的提取出目標(biāo)深度特征。基于DNN的手勢識別所需的圖像背景并不需要固定,算法甚至在一定范圍內(nèi)允許運動背景的存在,從而提高了識別的環(huán)境耐受力和精細度。

| DNN在手勢識別中如何實現(xiàn)?

接下來筆者將介紹一下具體的實現(xiàn)方法。

傳統(tǒng)的識別系統(tǒng)流程大體上可以分成檢測、識別、跟蹤這三個步驟,具體實現(xiàn)流程是:傳感器獲取信息,預(yù)處理,特征提取,特征選擇,再到最后的推理、預(yù)測或者識別。通常認為最后一部分是屬于機器學(xué)習(xí)的部分,這部分是整個系統(tǒng)的精髓所在,它能否從數(shù)據(jù)中學(xué)到有效的知識直接關(guān)系到整個系統(tǒng)能否按照人們期望的那樣工作,但同時也存在前期特征提取或者選擇不好的情況,這樣會影響系統(tǒng)性能。

而基于DNN的手勢識別就是讓機器自己去提取特征,不需要手工特征提取,強大的學(xué)習(xí)能力使得模型在復(fù)雜背景下也能取得理想效果,其手勢識別過程如下:

首先創(chuàng)建手勢識別采集系統(tǒng),做運動目標(biāo)檢測,并在檢測的同時提取出前景的即運動目標(biāo)的部分信息,獲得手勢圖像。采集到手勢圖像之后根據(jù)不同應(yīng)用場景選擇合適的網(wǎng)絡(luò)協(xié)議,把數(shù)據(jù)傳輸?shù)接嬎闫脚_利用深度學(xué)習(xí)算法進行復(fù)雜背景手勢識別,并最終給出手勢識別結(jié)果。

| 基于DNN實現(xiàn)的VR會是什么樣的?

基于DNN算法的思想實現(xiàn)的VR產(chǎn)品,并使用單機GPU方法來加速深度網(wǎng)絡(luò)的訓(xùn)練和識別工作。手勢識別模組可以使用深度攝像頭實現(xiàn)手部近距離3D成像,結(jié)合DNN自主研發(fā)了一套數(shù)據(jù)處理算法,實現(xiàn)了高精度實時手部動作識別,既能跟蹤單個手指,識別每個手指細微的動作,也可擴展至跟蹤多只手。

這樣的VR產(chǎn)品的手勢識別具有捕捉精度高,響應(yīng)速度快,靈敏度高,可以不受環(huán)境光線強弱影響,室內(nèi)室外都可以使用。

不過目前市面上幾乎沒有基于DNN的手勢識別產(chǎn)品。筆者所知的G-Wearables自主研發(fā)的StepVR產(chǎn)品就是基于DNN算法實現(xiàn)的,但還未見到實物,可以期待一下。

本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險,如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉