谷歌開放原子視覺行為數(shù)據(jù)庫(kù)，用于識(shí)別視頻中的動(dòng)作行為

時(shí)間：2017-10-23 10:25:24

關(guān)鍵字：數(shù)據(jù)庫(kù) 谷歌機(jī)器視覺學(xué)習(xí)

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]谷歌在機(jī)器視覺學(xué)習(xí)方面積累大量的數(shù)據(jù)以及技術(shù)，最近，他們推出了一個(gè)新的視頻數(shù)據(jù)庫(kù)，名稱為“原子視覺行為(AVA)“，該數(shù)據(jù)可由一個(gè)或多個(gè)標(biāo)簽組成，能夠推動(dòng)計(jì)算機(jī)視覺識(shí)別影像中行為的研究。

谷歌在機(jī)器視覺學(xué)習(xí)方面積累大量的數(shù)據(jù)以及技術(shù)，最近，他們推出了一個(gè)新的視頻數(shù)據(jù)庫(kù)，名稱為“原子視覺行為(AVA)“，該數(shù)據(jù)可由一個(gè)或多個(gè)標(biāo)簽組成，能夠推動(dòng)計(jì)算機(jī)視覺識(shí)別影像中行為的研究。

說到圖像識(shí)別，其實(shí)谷歌的照片應(yīng)用就可以自動(dòng)識(shí)別出寵物圖像，很多公司也在圖片識(shí)別上作出很多優(yōu)化嘗試，比如Shutterstock上周公布了一項(xiàng)全新的測(cè)試功能，用戶可以根據(jù)自己的布局來搜索股票照片。

相較于這些發(fā)生在靜態(tài)圖像領(lǐng)域的機(jī)器視覺識(shí)別技術(shù)，應(yīng)用到視頻中的難度會(huì)更大，因?yàn)樵谝曨l中，每一幀畫面的都包括各種復(fù)雜的場(chǎng)景，而且很多時(shí)候視頻中一個(gè)動(dòng)作是由不同的人發(fā)出的。不過視頻識(shí)別方面的應(yīng)用現(xiàn)在也有一些案例，比如著名色情網(wǎng)站Pornhub，它可以自動(dòng)對(duì)成人視頻進(jìn)行分類，包括讓系統(tǒng)識(shí)別出特定的性姿勢(shì)。

谷歌的軟件工程師也解釋道， “讓機(jī)器去識(shí)別影像中的人類行為是發(fā)展計(jì)算機(jī)視覺的一大難題，盡管過去幾年在圖像分類和尋找物體方面取得了突破。”所以谷歌推出了這個(gè)AVA數(shù)據(jù)庫(kù)，AVA包括80多個(gè)被動(dòng)作標(biāo)簽標(biāo)注的Youtube視頻網(wǎng)址，比如握手、接吻、喝酒、擁抱等等。

谷歌希望通過開放這個(gè)數(shù)據(jù)庫(kù)，進(jìn)一步改進(jìn)他們基于視頻識(shí)別的機(jī)器視覺能力。