SSDD數(shù)據(jù)集的標(biāo)準(zhǔn)規(guī)范
SSDD訓(xùn)練與測(cè)試集的劃分標(biāo)準(zhǔn)
SSDD的原論文采用了7:1:2的隨機(jī)比例,將數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。然而,這種隨機(jī)劃分機(jī)制將導(dǎo)致測(cè)試集中樣本的極大不確定性,導(dǎo)致使用同一檢測(cè)算法進(jìn)行多次訓(xùn)練和測(cè)試時(shí),產(chǎn)生不同的結(jié)果。這是因?yàn)镾SDD中的樣本數(shù)量太少,只有1160個(gè),隨機(jī)劃分可能會(huì)破壞訓(xùn)練集和測(cè)試集之間的分布一致性。
后來(lái),一些研究人員也采用了其他比例進(jìn)行訓(xùn)練、驗(yàn)證和測(cè)試,但這些不同的數(shù)據(jù)集劃分將導(dǎo)致不統(tǒng)一的方法比較,不利于學(xué)術(shù)交流。事實(shí)上,計(jì)算機(jī)視覺(jué)領(lǐng)域的兩個(gè)目標(biāo)檢測(cè)數(shù)據(jù)集(PACAL VOC和COCO),都提供了唯一確定的訓(xùn)練集、驗(yàn)證集和測(cè)試集,這可確保對(duì)比的公平性。
因此,這里對(duì)SSDD的訓(xùn)練集和測(cè)試集的劃分做出了嚴(yán)格的規(guī)定。文件編號(hào)最后數(shù)字為1和9的圖像被確定為測(cè)試集,其余的被視為訓(xùn)練集。該規(guī)則還可以保持訓(xùn)練集和測(cè)試集分布的一致性,有利于網(wǎng)絡(luò)特征學(xué)習(xí)。
這里沒(méi)有提供驗(yàn)證集,因?yàn)镾SDD中的樣本數(shù)量非常少,因此應(yīng)該珍惜每個(gè)樣本,以確保每個(gè)測(cè)試樣本的訓(xùn)練梯度減小。然而,驗(yàn)證集不參與訓(xùn)練梯度下降,這將不可避免地導(dǎo)致船舶特征學(xué)習(xí)不足。當(dāng)然,如果研究者想要監(jiān)控模型在訓(xùn)練過(guò)程中是否被過(guò)度擬合,他們可以建立多個(gè)重疊的交叉驗(yàn)證集來(lái)達(dá)到目的。
近岸與遠(yuǎn)海目標(biāo)劃分標(biāo)準(zhǔn)
近岸圖像中的陸地背景非常復(fù)雜,船舶容易受到港口設(shè)施的干擾。為了分別計(jì)算近岸和遠(yuǎn)海這兩種情況下算法的性能,這里確定了測(cè)試集的近岸和遠(yuǎn)海圖像(近岸圖像在下圖中以洋紅色標(biāo)記)。在232幅測(cè)試圖像中,有186幅近海場(chǎng)景圖像,而只有46幅近海場(chǎng)景圖像。
與HRSID和LS-SSDD-v1.0類似,這里將包含陸地的圖像視為近岸樣本,而將其他圖像視為遠(yuǎn)海樣本。近岸和遠(yuǎn)海樣本的數(shù)量是極不平衡(分別是19.8%和80.2%)的,這種現(xiàn)象與地球的海洋面積比陸地大得多這一事實(shí)相符。
然而,深度學(xué)習(xí)需要大量數(shù)據(jù)來(lái)學(xué)習(xí)特征,更多的數(shù)據(jù)可帶來(lái)更好的學(xué)習(xí)效益。因此,近岸場(chǎng)景和遠(yuǎn)海場(chǎng)景之間樣本數(shù)的不平衡將導(dǎo)致近岸場(chǎng)景和近岸場(chǎng)景之間模型學(xué)習(xí)表示能力的巨大不平衡。網(wǎng)絡(luò)將僅擅長(zhǎng)于檢測(cè)許多簡(jiǎn)單的遠(yuǎn)海樣本中的船。近岸船舶的檢測(cè)性能將因訓(xùn)練樣本少而差,而海上船舶的檢測(cè)性能將因樣本的增加而變得優(yōu)異。學(xué)者在設(shè)計(jì)檢測(cè)算法時(shí)應(yīng)特別注意這一問(wèn)題。
SSDD船舶目標(biāo)尺寸定義標(biāo)準(zhǔn)
不同類型的船具有不同的尺寸,同一尺寸的船也會(huì)有不同的分辨率,這都會(huì)導(dǎo)致圖像中像素總數(shù)的變化,多尺度船舶檢測(cè)是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。但到目前為止,在SAR圖像中還沒(méi)有明確的定義哪些船舶是小型船舶,哪些船舶是大型船舶。一些學(xué)者認(rèn)為小于40像素的船只是小型船只,但他們沒(méi)有考慮到圖像的實(shí)際分辨率。此外,僅僅根據(jù)像素?cái)?shù)量來(lái)確定船舶的尺寸,這與計(jì)算機(jī)視覺(jué)界的共識(shí)不一致。
在SAR船舶檢測(cè)領(lǐng)域,有人遵循COCO數(shù)據(jù)集的標(biāo)準(zhǔn)對(duì)船舶尺寸進(jìn)行分類,即BBox<32X32的面積表示小型船舶,32X32
然而,該定義僅針對(duì)COCO數(shù)據(jù)集,在SSDD數(shù)據(jù)集上使用它會(huì)有問(wèn)題,因?yàn)樗cBBox的面積分布不匹配。因此,需要根據(jù)SSDD數(shù)據(jù)集指定船舶尺寸的定義,此外,還應(yīng)根據(jù)不同的標(biāo)簽類型定義船舶尺寸。最后,根據(jù)統(tǒng)計(jì)結(jié)果,定義了船舶尺寸標(biāo)準(zhǔn)。 SSDD密集分布小尺寸樣本標(biāo)準(zhǔn)
由于特征不明確,密集分布的小型船舶很難被檢測(cè)。為了便于在此特定場(chǎng)景中進(jìn)行性能評(píng)估,這里在測(cè)試集中指定了密集分布的小型船舶樣本,如下圖所示。在232張測(cè)試圖像中,有10張圖像密集分布著小型船舶,根據(jù)實(shí)際經(jīng)驗(yàn),001119.jpg中的船舶最難檢測(cè),研究人員可對(duì)此給予更多的關(guān)注。
密集分布的小船
對(duì)于這種困難的樣本,這里提供了幾種可能的解決方案:1.可以使用隨機(jī)裁剪數(shù)據(jù)增強(qiáng)來(lái)增加小型船舶在整個(gè)圖像中的比例。2.可以在深度網(wǎng)絡(luò)的淺層檢測(cè)小型船舶,特征損失低。3.可以將CFAR結(jié)合到深度網(wǎng)絡(luò)中,因?yàn)镃FAR對(duì)像素更敏感。4.可以結(jié)合視覺(jué)顯著性理論生成顯著性圖來(lái)指導(dǎo)深度網(wǎng)絡(luò)學(xué)習(xí)特征,因?yàn)檫@些小船在人眼觀察中非常重要。5.可以設(shè)計(jì)一個(gè)深度網(wǎng)絡(luò)來(lái)超分辨率重建小型船舶,這樣,小型船舶的功能將更加豐富。
SSDD在港口密集排列的船舶樣本標(biāo)準(zhǔn)
在港口密集排列的船舶也很難被發(fā)現(xiàn)。一方面,復(fù)雜的陸地背景會(huì)降低訓(xùn)練效率,因?yàn)橛?xùn)練過(guò)程中會(huì)產(chǎn)生大量的負(fù)樣本。另一方面,由于SAR特殊的成像機(jī)制和有限的分辨率,并排停泊的船舶會(huì)產(chǎn)生船體重疊效應(yīng)。為了便于在此特定場(chǎng)景中進(jìn)行性能評(píng)估,我們?cè)跍y(cè)試集中指定了港口船舶平行停泊的樣本,如下圖所示。
港口密集排列的船舶
此外,對(duì)于這種困難的樣本,這里提供了幾種可能的解決方案:1.可以使用注意機(jī)制來(lái)抑制陸地干擾,從而將注意力集中在船舶區(qū)域。2.可以使用分割掩模來(lái)輔助船舶檢測(cè)。3.可以使用生成性對(duì)抗網(wǎng)絡(luò)(GAN)生成此類場(chǎng)景的更多樣本,以提高這些船舶的學(xué)習(xí)比例。4.可以使用軟NMS后處理算法來(lái)避免漏檢。
以上內(nèi)容來(lái)自論文:SAR Ship Detection Dataset (SSDD) Of?cial Release and Comprehensive Data Analysis,需要英文原文的請(qǐng)給“雷達(dá)通信電子戰(zhàn)”微信公眾號(hào)發(fā)送“1010”查看,全文共41頁(yè)。