深度神經(jīng)網(wǎng)絡(luò)在識(shí)別物體上的能力怎樣
掃描二維碼
隨時(shí)隨地手機(jī)看文章
神經(jīng)網(wǎng)絡(luò)的復(fù)雜關(guān)系推理,什么是關(guān)系推理?考慮下面的圖像。幾乎不可能不把它當(dāng)作對(duì)象;球體,立方體等等。我們可以根據(jù)構(gòu)成圖像像素值的數(shù)百萬(wàn)個(gè)數(shù)字來(lái)考慮它?;蛘邎D像中所有邊緣的角度?;蛘呖紤]每個(gè)10x10像素區(qū)域。相反,我們直觀地根據(jù)它們識(shí)別圖像的對(duì)象和原因。
嘗試回答以下問(wèn)題:“大球體剩下的棕色金屬物體剩下的圓柱體大小是多少?”這是CLEVR數(shù)據(jù)集中的一個(gè)示例問(wèn)題。為了回答這個(gè)問(wèn)題,你需要考慮物體相對(duì)于彼此的相對(duì)位置。這種以對(duì)象和交互為中心的思維被稱為關(guān)系推理,它是人類智能的核心部分。
深度神經(jīng)網(wǎng)絡(luò)非常善于識(shí)別物體,但是當(dāng)涉及到他們的相互作用的推理時(shí),即使是最先進(jìn)的神經(jīng)網(wǎng)絡(luò)也在努力。例如,現(xiàn)有技術(shù)的卷積網(wǎng)絡(luò)可以容易地識(shí)別上述圖像中的每個(gè)對(duì)象,但是由于需要關(guān)于彼此相關(guān)的對(duì)象的推理而未能嘗試回答該問(wèn)題。
關(guān)系網(wǎng)絡(luò)
關(guān)系網(wǎng)絡(luò)(RN)它是一個(gè)簡(jiǎn)單的模塊,可以為任何神經(jīng)網(wǎng)絡(luò)添加關(guān)系推理能力。他們將RN添加到其他標(biāo)準(zhǔn)卷積網(wǎng)絡(luò)中,并在CLEVR數(shù)據(jù)集上實(shí)現(xiàn)超人類性能。
RN是向前邁出的重要一步,但它有一定的局限性。構(gòu)造它的方式,每個(gè)識(shí)別的對(duì)象只能與其他識(shí)別的對(duì)象進(jìn)行一次交互,之后網(wǎng)絡(luò)必須給出答案。這限制了RN,因?yàn)樗鼰o(wú)法推斷導(dǎo)出的交互,即影響對(duì)象B的對(duì)象A,而對(duì)象A又影響對(duì)象C,等等。在RN中,對(duì)象A必須直接影響對(duì)象C,或者根本不影響對(duì)象C.通過(guò)與對(duì)象B的交互不是一種選擇。
循環(huán)關(guān)系網(wǎng)絡(luò)
為了解決這個(gè)限制,我們引入了循環(huán)關(guān)系網(wǎng)絡(luò)(RRN)。RRN不是僅執(zhí)行關(guān)系推理的單個(gè)步驟,而是執(zhí)行多個(gè)步驟。在每個(gè)步驟中,每個(gè)對(duì)象都受到彼此對(duì)象的影響,同時(shí)還考慮到它自己的先前狀態(tài)。這允許交互從一個(gè)對(duì)象傳播到下一個(gè)對(duì)象,形成復(fù)雜的交互鏈。