深度神經(jīng)網(wǎng)絡在識別物體上的能力怎樣
神經(jīng)網(wǎng)絡的復雜關系推理,什么是關系推理?考慮下面的圖像。幾乎不可能不把它當作對象;球體,立方體等等。我們可以根據(jù)構(gòu)成圖像像素值的數(shù)百萬個數(shù)字來考慮它?;蛘邎D像中所有邊緣的角度?;蛘呖紤]每個10x10像素區(qū)域。相反,我們直觀地根據(jù)它們識別圖像的對象和原因。
嘗試回答以下問題:“大球體剩下的棕色金屬物體剩下的圓柱體大小是多少?”這是CLEVR數(shù)據(jù)集中的一個示例問題。為了回答這個問題,你需要考慮物體相對于彼此的相對位置。這種以對象和交互為中心的思維被稱為關系推理,它是人類智能的核心部分。
深度神經(jīng)網(wǎng)絡非常善于識別物體,但是當涉及到他們的相互作用的推理時,即使是最先進的神經(jīng)網(wǎng)絡也在努力。例如,現(xiàn)有技術的卷積網(wǎng)絡可以容易地識別上述圖像中的每個對象,但是由于需要關于彼此相關的對象的推理而未能嘗試回答該問題。
關系網(wǎng)絡
關系網(wǎng)絡(RN)它是一個簡單的模塊,可以為任何神經(jīng)網(wǎng)絡添加關系推理能力。他們將RN添加到其他標準卷積網(wǎng)絡中,并在CLEVR數(shù)據(jù)集上實現(xiàn)超人類性能。
RN是向前邁出的重要一步,但它有一定的局限性。構(gòu)造它的方式,每個識別的對象只能與其他識別的對象進行一次交互,之后網(wǎng)絡必須給出答案。這限制了RN,因為它無法推斷導出的交互,即影響對象B的對象A,而對象A又影響對象C,等等。在RN中,對象A必須直接影響對象C,或者根本不影響對象C.通過與對象B的交互不是一種選擇。
循環(huán)關系網(wǎng)絡
為了解決這個限制,我們引入了循環(huán)關系網(wǎng)絡(RRN)。RRN不是僅執(zhí)行關系推理的單個步驟,而是執(zhí)行多個步驟。在每個步驟中,每個對象都受到彼此對象的影響,同時還考慮到它自己的先前狀態(tài)。這允許交互從一個對象傳播到下一個對象,形成復雜的交互鏈。