谷歌開放原子視覺行為數(shù)據(jù)庫(kù),用于識(shí)別視頻中的動(dòng)作行為
掃描二維碼
隨時(shí)隨地手機(jī)看文章
谷歌在機(jī)器視覺學(xué)習(xí)方面積累大量的數(shù)據(jù)以及技術(shù),最近,他們推出了一個(gè)新的視頻數(shù)據(jù)庫(kù),名稱為“原子視覺行為(AVA)“,該數(shù)據(jù)可由一個(gè)或多個(gè)標(biāo)簽組成,能夠推動(dòng)計(jì)算機(jī)視覺識(shí)別影像中行為的研究。
說到圖像識(shí)別,其實(shí)谷歌的照片應(yīng)用就可以自動(dòng)識(shí)別出寵物圖像,很多公司也在圖片識(shí)別上作出很多優(yōu)化嘗試,比如Shutterstock上周公布了一項(xiàng)全新的測(cè)試功能,用戶可以根據(jù)自己的布局來搜索股票照片。
相較于這些發(fā)生在靜態(tài)圖像領(lǐng)域的機(jī)器視覺識(shí)別技術(shù),應(yīng)用到視頻中的難度會(huì)更大,因?yàn)樵谝曨l中,每一幀畫面的都包括各種復(fù)雜的場(chǎng)景,而且很多時(shí)候視頻中一個(gè)動(dòng)作是由不同的人發(fā)出的。不過視頻識(shí)別方面的應(yīng)用現(xiàn)在也有一些案例,比如著名色情網(wǎng)站Pornhub,它可以自動(dòng)對(duì)成人視頻進(jìn)行分類,包括讓系統(tǒng)識(shí)別出特定的性姿勢(shì)。
谷歌的軟件工程師也解釋道, “讓機(jī)器去識(shí)別影像中的人類行為是發(fā)展計(jì)算機(jī)視覺的一大難題,盡管過去幾年在圖像分類和尋找物體方面取得了突破。”所以谷歌推出了這個(gè)AVA數(shù)據(jù)庫(kù),AVA包括80多個(gè)被動(dòng)作標(biāo)簽標(biāo)注的Youtube視頻網(wǎng)址,比如握手、接吻、喝酒、擁抱等等。
谷歌希望通過開放這個(gè)數(shù)據(jù)庫(kù),進(jìn)一步改進(jìn)他們基于視頻識(shí)別的機(jī)器視覺能力。