澎思科技在基于視頻的行人再識別數(shù)據(jù)集中取得突破
近日,澎思科技(Pensees)在基于視頻的行人再識別數(shù)據(jù)集(PRID-2011,iLIDS-VID,MARS)中取得突破。
據(jù)了解,澎思科技算法在最大的視頻數(shù)據(jù)集MARS上的首位命中率指標(biāo)88.8%,在iLIDS-VID和PRID-2011等數(shù)據(jù)集上首位命中率分別為88.0%和95.5%。
具體來說,主要包括三個方面:
1、受遮擋、姿態(tài)變化、視角變化等因素的影響,視頻序列中行人的特征是不連續(xù)的。用全局特征來度量每一幀圖片的權(quán)重往往會損失掉許多重要的信息。采用分割重組策略將特定局部特征重組成多個視頻序列進行學(xué)習(xí),進而極大減少局部特征損失對最終特征的影響。
2、提出雙向圖注意力機制模塊。將圖卷積神經(jīng)網(wǎng)絡(luò)和SENet結(jié)合,在整個序列上進行通道域的模式選擇學(xué)習(xí)。同時通過雙向網(wǎng)絡(luò)進行空間域的注意力區(qū)域?qū)W習(xí)。由于圖卷積網(wǎng)絡(luò)的特性,每一幀圖片的注意力特征都是與其他幀相互學(xué)習(xí)結(jié)合的結(jié)果,從而提高特征的代表性。
3、利用幀間相似度進行序列融合。通過數(shù)學(xué)計算的方式就可以達(dá)到融合的目的。這樣,數(shù)據(jù)的類內(nèi)相似度得到了提高。在結(jié)合三元損失函數(shù)進行訓(xùn)練后,類間相似度得到了降低,進而提高重識別效果。
澎思科技角介紹,基于視頻的行人再識別(ReID)技術(shù)更貼近智慧城市建設(shè)的諸多應(yīng)用場景,能有效解決行人信息有限、特征不足及其他干擾因素等問題,相比單幀圖片的行人再識別具備更長遠(yuǎn)的落地應(yīng)用空間。