深度神經(jīng)網(wǎng)絡(luò)在識(shí)別物體上的能力怎樣

時(shí)間：2020-04-26 11:00:01

關(guān)鍵字：神經(jīng)網(wǎng)絡(luò) VR EV 金屬

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀] 神經(jīng)網(wǎng)絡(luò)的復(fù)雜關(guān)系推理，什么是關(guān)系推理？考慮下面的圖像。幾乎不可能不把它當(dāng)作對(duì)象;球體，立方體等等。我們可以根據(jù)構(gòu)成圖像像素值的數(shù)百萬(wàn)個(gè)數(shù)字來(lái)考慮它?；蛘邎D像中所有邊緣的角度。或者考慮每個(gè)10x

神經(jīng)網(wǎng)絡(luò)的復(fù)雜關(guān)系推理，什么是關(guān)系推理？考慮下面的圖像。幾乎不可能不把它當(dāng)作對(duì)象;球體，立方體等等。我們可以根據(jù)構(gòu)成圖像像素值的數(shù)百萬(wàn)個(gè)數(shù)字來(lái)考慮它?；蛘邎D像中所有邊緣的角度?；蛘呖紤]每個(gè)10x10像素區(qū)域。相反，我們直觀地根據(jù)它們識(shí)別圖像的對(duì)象和原因。

嘗試回答以下問(wèn)題：“大球體剩下的棕色金屬物體剩下的圓柱體大小是多少？”這是CLEVR數(shù)據(jù)集中的一個(gè)示例問(wèn)題。為了回答這個(gè)問(wèn)題，你需要考慮物體相對(duì)于彼此的相對(duì)位置。這種以對(duì)象和交互為中心的思維被稱為關(guān)系推理，它是人類智能的核心部分。

深度神經(jīng)網(wǎng)絡(luò)非常善于識(shí)別物體，但是當(dāng)涉及到他們的相互作用的推理時(shí)，即使是最先進(jìn)的神經(jīng)網(wǎng)絡(luò)也在努力。例如，現(xiàn)有技術(shù)的卷積網(wǎng)絡(luò)可以容易地識(shí)別上述圖像中的每個(gè)對(duì)象，但是由于需要關(guān)于彼此相關(guān)的對(duì)象的推理而未能嘗試回答該問(wèn)題。

關(guān)系網(wǎng)絡(luò)

關(guān)系網(wǎng)絡(luò)（RN）它是一個(gè)簡(jiǎn)單的模塊，可以為任何神經(jīng)網(wǎng)絡(luò)添加關(guān)系推理能力。他們將RN添加到其他標(biāo)準(zhǔn)卷積網(wǎng)絡(luò)中，并在CLEVR數(shù)據(jù)集上實(shí)現(xiàn)超人類性能。

RN是向前邁出的重要一步，但它有一定的局限性。構(gòu)造它的方式，每個(gè)識(shí)別的對(duì)象只能與其他識(shí)別的對(duì)象進(jìn)行一次交互，之后網(wǎng)絡(luò)必須給出答案。這限制了RN，因?yàn)樗鼰o(wú)法推斷導(dǎo)出的交互，即影響對(duì)象B的對(duì)象A，而對(duì)象A又影響對(duì)象C，等等。在RN中，對(duì)象A必須直接影響對(duì)象C，或者根本不影響對(duì)象C.通過(guò)與對(duì)象B的交互不是一種選擇。

循環(huán)關(guān)系網(wǎng)絡(luò)

為了解決這個(gè)限制，我們引入了循環(huán)關(guān)系網(wǎng)絡(luò)（RRN）。RRN不是僅執(zhí)行關(guān)系推理的單個(gè)步驟，而是執(zhí)行多個(gè)步驟。在每個(gè)步驟中，每個(gè)對(duì)象都受到彼此對(duì)象的影響，同時(shí)還考慮到它自己的先前狀態(tài)。這允許交互從一個(gè)對(duì)象傳播到下一個(gè)對(duì)象，形成復(fù)雜的交互鏈。