深度學習在數(shù)據(jù)分析方面正在呈現(xiàn)持續(xù)增長的趨勢,并被稱為2013年的10項突破性技術之一 [1]。它是對神經網絡的改進,包含更多的計算層,從而能夠在數(shù)據(jù)中進行更高層次的抽象和預測 [2]。到目前為止,它正成為通用成像和計算機視覺領域領先的機器學習工具。
特別地,卷積神經網絡(CNN)已經被證明是可用于許多計算機視覺任務的有利工具。深度卷積神經網絡(Deep CNN)可以自動學習從原始數(shù)據(jù)(例如,圖像)獲得的中級和高級的抽象概念。最近的結果表明,從CNN提取的通用描述符(generic descriptor)在自然圖像的對象識別和定位中非常有效。世界各地的醫(yī)學圖像分析組正在迅速進入該領域,并將CNN和其他的深度學習方法應用于廣泛的應用當中。許多不錯的成果正在涌現(xiàn)。
在醫(yī)學成像領域,疾病的準確診斷或評估取決于圖像采集和圖像解譯。近年來,隨著技術的發(fā)展,設備能以更快地速率和更強大的分辨率來收集數(shù)據(jù),這大大提高了圖像采集的質量。然而,計算機技術對圖像解譯的改進,才剛剛開始。目前,大部分的醫(yī)學圖像解譯都由醫(yī)生來進行??墒?,人類進行的圖像解譯因為其主觀性、不同解讀者的較大變化和產生的疲勞,往往是片面的。許多診斷任務需要初始搜索過程來檢測異常,并且量化測量值和時間的變化。計算機化的工具,尤其是圖像分析和機器學習,對改善診斷起到關鍵作用。他們通過幫助識別需要治療的部位來支持專家工作流程。在這些工具當中,深度學習被迅速的證實了其作為基礎的優(yōu)越性,能夠提高準確性。它還開辟了數(shù)據(jù)分析的新領域,并以一種前所未有的速度不斷發(fā)展。
A. 歷史上的網絡
神經網絡和深度學習背后的基本思想已經存在了幾十年了 [3]。它們通常只有幾個層。反向傳播算法的出現(xiàn),使得神經網絡的性能有了顯著的提升。然而,性能仍然不夠。其他分類器逐漸發(fā)展開來,包括決策樹、boosTIng和支持向量機。其中每一個都已經應用于醫(yī)學圖像分析,特別是用于檢測異常,而且他們也在分割(segmentaTIon)等其它一些相關領域得到了應用。盡管取得了這樣的發(fā)展,相對高的假陽性率依然很普遍。
早在1996年在Sahiner等人的工作中,CNN(卷積神經網絡)就被應用在醫(yī)學圖像處理上 [4]。在這項工作中,從乳腺X光照片中提取包含活檢證實的腫塊或者正常組織的ROIs(Region of Interests)。CNN包含一個輸入層、兩個隱含層和一個輸出層以及使用的反向傳播。在這個前GPU時代,訓練時間被描述為“計算密集型”,但是卻沒有給出具體的時間。1993年,CNN被用于肺結節(jié)檢測 [5]。1995年,CNN被用于檢測乳腺X光照片上的微鈣化 [6]。
一個典型的用于圖像處理的CNN,其結構包含一連串卷積濾波器的層,夾雜著一連串數(shù)據(jù)壓縮或者池化層。卷積濾波器(convoluTIon filter)處理輸入圖像的一小塊。類似于人腦的低級像素處理,卷積濾波器能夠檢測相關度高的圖像特征,比如可以代表明顯邊緣的線或圓(例如用于器官檢測)或者圓形(比如用于圓形的物體,像結腸息肉),然后是高階特征比如局部或是全局形狀和紋理。CNN的輸出通常是一個或多個概率或者圖像對應的類別的標簽。卷積濾波器能夠直接從訓練的數(shù)據(jù)當中學習。這正是人們所需要的,因為它降低了對很花費時間的手動標記特征的需求。如果不用卷積濾波器,那么在預處理圖像階段,針對特定應用設計的濾波器以及一些需要計算的特征是離不開這些人工特征的。
CNN是高度并行化的算法。與單獨的的CPU處理相比,使用CNN的實用性一大部分是來源于圖像處理單元(GPU)促成的巨大的速度提升(大約40倍)。早期描述GPU 對訓練的CNN 和其他機器學習技術價值的論文是在2006年發(fā)表的 [8]。在醫(yī)學圖像處理中,GPU 首先被引入用于分割、重建和配準,然后才是機器學習 [9],[10]。有趣的是,雖然Eklund et al. [10] 在他們的2013年的論文中廣泛談論卷積,但卷積神經網絡和深度學習一點也沒有被提及。這突出了深度學習的重大改革對醫(yī)學圖像處理研究的迅速調整有多迅猛。
B. 今天的網絡
由于CNN 的新變體的開發(fā)和針對現(xiàn)代 GPU 優(yōu)化的高效并行求解器(parallel solver)的出現(xiàn),深度神經網絡最近已經獲得了相當大的商業(yè)利益。CNN 的強大得益于它的深層架構,這讓它在不同抽象級別上,提取一系列辨別特征。從頭開始訓練一個深層的卷積神經網絡是一個巨大的挑戰(zhàn)。首先,CNN 需要很大數(shù)量的標記數(shù)據(jù),而這這在醫(yī)學領域很難達到。這是因為請專家來進行標記是很昂貴的,并且疾?。ū热?,病變)的樣本十分稀少。其次,訓練深度 CNN 需要大量的計算和存儲器資源,沒有它們的話,訓練的過程會非常耗時。第三,訓練一個深度 CNN 經常由于過擬合和收斂問題而變得復雜化,通常需要對網絡的學習參數(shù)或者架構重復調整以確保所有的層都以相當?shù)乃俣葘W習。鑒于以上的困難,一些被稱為“遷移學習(transfer learning)”和“微調(fine-tuning)”的新的學習方案被提出來提供解決方案,并且被越來越多的人接受。這些將在 II-C 節(jié)進一步討論。
C. 醫(yī)學領域的網絡
領域深度學習(domain Deep learning)方法當應用到大型訓練集時最為有效,但在醫(yī)學領域,并不總能獲得大的數(shù)據(jù)集。因此,我們面臨著一系列重大的挑戰(zhàn),這包括,(a) 深度神經網絡可以被有效地用在醫(yī)學任務上嗎?(b) 從一般意象到醫(yī)學領域的轉移學習是否相關?(c) 我們是否可以單獨依靠學習的特征,還是可以將它們與人工制作的功能結合起來完成任務?這種關于醫(yī)學成像的深度學習的 IEEE 成像 ( IEEE-TMI ) 特殊問題集中在機器學習這個新時代的進展以及它在醫(yī)學圖像處理領域的角色。這個問題介紹了最近 CNN 和其他深度學習應用在醫(yī)療任務方面的成就。它包含來自世界各地的各種調查員的50份論文中挑選出來的18篇文章,這對于 IEEE 的特殊問題是一個非常高的數(shù)字,并且這是在從論文征集公布到提交截止日期的時長比以往要短的時間內實現(xiàn)的。論文集中在從檢測到類別化(例如,病變檢測、圖像分割、形狀建模、圖像配準)等 這些大量傳統(tǒng)的任務,也有一些開放的新穎的應用領域。其中還包括了一些重點在網絡探索的工作,并給出了對不同的任務、參數(shù)、訓練集應該如何選擇架構的看法。
期刊論文和主題概述
A. 病變檢測
電腦輔助檢測 ( CAD/Computer-aided detecTIon ) 是一個完善的醫(yī)學圖像分析領域,非常適合深度學習。在 CAD 的標準方法 [11] 中,通過監(jiān)督方法或者經典的圖像處理技術(比如濾波和數(shù)學形態(tài)學(mathematical morphology))檢測病變。候選病變通常被分割出來,而且通常由大量的手動設計的特征來描述。分類器將特征向量與對應的候選部位是實際病變的概率做映射。使用深度學習而不是手動設計的特征的直接方法是訓練在以候選病變?yōu)橹行牡囊唤M圖像圖像數(shù)據(jù)上操作的 CNN。本期的幾篇文章都使用了這種方法。為了 獲取3D 胸部 CT 掃描的肺結節(jié)的候選以及提取以這些候選部位為中心的9個不同的方向的2D 貼片,Setio et al. [12] 結合了先前開發(fā)的三種候選探測器。結合不同的 CNN 來對每個候選者進行分類。報告顯示,與先前公布的用于相同任務的經典 CAD 的結果相比,這種方法取得了微小的進步。
Roth et al. [13] 將 CNN 用于改進3個現(xiàn)有的 CAD 系統(tǒng)用于檢測結腸鏡 CT 中結腸息肉的存在,以及利用體 CT,檢測硬化脊柱轉移和擴大淋巴結。他們也用了先前開發(fā)的候選檢測器和3個正交方向的2D 貼片,以及多達 100個隨機旋轉視圖。隨機旋轉的“2.5D”視圖是一種從原始 3D 數(shù)據(jù)分解圖像表示的方法。隨后通過整合 在 2.5D 視圖上的 CNN 的預測結果來獲得額外的準確度提升。對于所有使用 CNN 的 3 個 CAD 系統(tǒng),病變檢測的靈敏度改善了 13 – 34%,這表明該方法是通用的可調整的。若使用非深度學習分類器 ( 例如支持向量機族 ),幾乎不可能達到這種程度的改進。
Dou et al. [14] 從磁敏性加權磁共振成像掃描中檢測出腦微出血。他們使用 3D CNN 并且用 CNN 替換原始的候選檢測階段,提出了兩階段方法。報告提出,在相同的數(shù)據(jù)集上重新實施、訓練和測試,他們的 3D CNN 的結果與現(xiàn)有文獻中的其他經典的方法和 2D CNN 方法相比,有了改進。
Sirinukunwattana et al. [15] 在組織病理學圖像中檢測和分類細胞核。他們使用一個 CNN,使用一個小塊作為輸入,而不僅僅是預測小塊的中心像素是否是細胞核,他們對輸出進行建模,每個細胞核中心會產生一個峰值而其他地方較為平坦。這種空間約束的 CNN 與在測試階段中的重疊貼片的融合相結合,產生了比先前基于 CNN 和基于經典特征方法的先前提出的技術更好的結果。
Anthimopoulos et al. [16] 側重于利用 2D 胸部 CT 掃描圖像來探測間質性肺病的模式。他們是研究這個問題的三個組之一 ( 其他兩個是 Shin et al. [17] 和 van Tulder et al. [18])使用來自 [19] 的公開數(shù)據(jù)集。他們訓練 CNN,讓其能區(qū)分 32 × 32 個像素的小塊屬于 7 個類中的哪一個。報告顯示,他們的結果達到了比以前三個使用手動設計特征的方法更高的精度。
在研究此類問題的其他幾篇文章中,病變檢測也是一個感興趣的話題,但是這些文章的側重點在于更廣泛或專注于特定的方法問題。這些論文將在下面簡要談論。
B. 分割和形狀建模
對于一個由 2891 個心臟超聲檢查構成的大數(shù)據(jù)集,Ghesu 等人結合了深度學習和邊緣區(qū)空間學習來做物體探測和分割。“大參數(shù)空間的有效探索”與一種增強深度網絡中的稀疏性的方法的結合增強了計算效率,且該方法相較于同一個小組發(fā)布的另一個參考方法將平均分割誤差減少了 13.5%。
有三組研究人員關注于大腦結構分割或腦病變。多發(fā)性硬化癥腦病變分割的磁共振成像(MRI)問題由 Brosch 等人解決。他們開發(fā)了一種 3D 深度卷積編碼網絡,這種網絡能夠結合相互關聯(lián)的卷積與反卷積過程。卷積過程學習到更高層次的功能,而反卷積過程預測出體素水平分割。他們將這種網絡應用到兩個公用數(shù)據(jù)集和一個臨床試驗數(shù)據(jù)集中,并將自己的方法與 5 種公用方法進行了比較。報告稱,稱該方法的表現(xiàn)“可與當前最先進的方法相媲美”。
Pereira 等人研究了磁共振成像中的腦腫瘤分割。[ 22 ]。他們使用了小的內核、更深層的架構、灰度歸一化和數(shù)據(jù)增強。不同卷積神經網絡架構被用于低級別和高級別的腫瘤。該方法分別對腫瘤的增強部分和核心部分進行了分割。他們在 2013 年的數(shù)據(jù)集公共挑戰(zhàn)賽上排名第一,并在 2015 年的現(xiàn)場挑戰(zhàn)賽上排名第二。
對于大腦結構分割問題,Moeskops 等人的一項研究顯示,卷積神經網絡在涵蓋了從早產兒到老年人的五個不同年齡組病人的數(shù)據(jù)集上表現(xiàn)出色。一種多尺度的方法被用于實現(xiàn)其可靠性。該方法在 8 種組織類別中取得了良好的效果,其中 5 個數(shù)據(jù)集的 Dice 相似性系數(shù)平均值為 0.82 至 0.91。
C. 網絡探究
1)數(shù)據(jù)維度問題——二維 vs 三維:我們看到的大部分數(shù)據(jù)研究采用的是二維分析。二維向三維的過渡經常遭到質疑——它是否會是性能大幅提升的一個關鍵所在。數(shù)據(jù)增強過程中存在一些變化,包括 2.5 維。例如在 Roth 等人的研究中,軸位、冠狀位和矢狀位圖像以候選的結腸息肉或淋巴結中的體素為中心,并被輸入到 cuda-convnet 卷積神經網絡中,該網絡包含了通常用于表示一張自然光圖像的紅、綠、藍三色通道。三維卷積神經網絡被 Brosch 和 Dou 等人明確用在了這個問題上。
2)學習方法論——無監(jiān)督型 vs 監(jiān)督型:當我們看網絡文獻時會明顯發(fā)現(xiàn),大部分研究為了實現(xiàn)分類而專注于監(jiān)督型卷積神經網絡。這種網絡對許多應用來說非常重要,包括檢測、分割和標記。然而仍有一些研究專注于無監(jiān)督型方案,它們大多在圖像編碼、高效圖像表征計劃以及作為深入監(jiān)督型方案的一種預處理步驟方面被證明是有用的。無監(jiān)督型表征學習方法如受限波爾茲曼機(Restricted Boltzmann Machines/RBM)可能會超越標準的濾波器組,因為它們直接從訓練數(shù)據(jù)中學習特征描述。RBM 由一個生成型學習目標來訓練;這使得網絡可以從未標記的數(shù)據(jù)中學習表征,但不一定會產生最佳分類特征。Van Tulder 等人進行了一項調查研究,它結合了卷積分類 RBM 中生成型和判別型學習目標的優(yōu)點。該研究表明學習任務的組合形式優(yōu)于純粹的判別型或生成型學習。
3)訓練數(shù)據(jù)注意事項:卷積神經網絡實現(xiàn)了對數(shù)據(jù)驅動型、極具表征性、分層遞階的圖像特征的學習。在許多應用領域中(見期刊),這些特征已被證明是一個十分強大且可靠的表征。要提供這樣一個豐富的表征和成功的分類,需要足夠多的訓練數(shù)據(jù)。所需數(shù)據(jù)量是一個有待探討的關鍵問題。相關問題包括以下內容:我們如何最有效地使用所擁有的訓練數(shù)據(jù)?在無法獲得數(shù)據(jù)的情況下我們能做些什么?以及最后是否存在獲取數(shù)據(jù)并進行醫(yī)學注釋的替代方法?
其中一些問題由該期刊中的一些論文解決。Van Grinsven 等人試圖通過動態(tài)選擇訓練期間被錯誤分類的負樣本來改善和加速解決醫(yī)學圖像分析任務的卷積神經網絡訓練。卷積神經網絡訓練過程是一個連續(xù)的過程,需要多次迭代(或多個時期)來優(yōu)化網絡參數(shù)。在每一個時期,一個樣本的子集是從訓練數(shù)據(jù)中隨機選擇的,并通過反向傳播和最小化代價函數(shù)來呈給網絡以更新其參數(shù)。醫(yī)學領域中的分類任務往往是一個正常型/病理型的判別任務。在這種情況下,正常型類別尤其會被過度表征;此外由于每張圖像中正常型組織的重復型模式,大多數(shù)正常型訓練樣本是高度相關的。其中只有一小部分會包含有用信息。在學習過程中對這些數(shù)據(jù)進行同等處理會導致在無用的正常型樣本上浪費許多次訓練迭代,使卷積神經網絡的訓練過程花費不必要的時間。能夠識別有用的正常型樣本的一種方法(如該研究所示)提高了卷積神經網絡學習過程的效率并減少了訓練時間。
4)遷移學習和微調:在像 ImageNet 一樣全面注解的醫(yī)療成像領域中獲取數(shù)據(jù)仍然是一個挑戰(zhàn)。當沒有足夠多的數(shù)據(jù)可用時,有幾種方法可以提供幫助:1)遷移學習:由自然的圖像數(shù)據(jù)集或由一個不同醫(yī)療領域中所預訓練過的卷積神經網絡模型(監(jiān)督型)被用于手頭一個新的醫(yī)療任務。一種方案是,一個預訓練過的卷積神經網絡被施加到一張輸入圖像中,然后其輸出從網絡層中被提取出來。所提取的輸出被當做特征并被用于訓練一個單獨的模式分類器。例如在 Bar 等人的研究中,預訓練卷積神經網絡被用來作為一個鑒定胸部病理的特征生成器。在 Ginneken 等人的研究中,基于卷積神經網絡的特征與手動添加的特征被整合在一起,實現(xiàn)了一個結節(jié)(nodule)檢測系統(tǒng)中的性能提升。2)微調:確實有一個中等大小的數(shù)據(jù)集可用于手頭任務,一個參考方案是,在進一步的監(jiān)督型訓練完成后,將一個預先訓練的卷積神經網絡作為幾個(或全部)網絡層的初始化來使用,在手頭任務中使用新數(shù)據(jù)。
遷移學習和微調是在醫(yī)療成像應用中使用深度卷積神經網絡的關鍵部分。對這些問題進行探討的是 Shin 和 Tajbakhsh 等人的研究工作。其研究中的實驗結果一致表明,使用帶有微調的預訓練神經網絡能夠達到最佳效果,無論是特定應用領域(Tajbakhsh 等人)還是所有網絡架構(Shin 等人)。Tajbakhsh 等人的進一步分析表明,深度微調在性能提升方面優(yōu)于淺度微調,而訓練集尺寸的降低也使得使用微調的重要性得到提高。在 Shin 等人的研究中,GoogleNet 架構相比其他較淺深度架構實現(xiàn)了最先進的縱隔淋巴結檢測。
5)真實標注數(shù)據(jù)(Ground Truth)——來源于專家與非專家:對公開真實標注數(shù)據(jù)的缺乏,以及每次醫(yī)療任務中收集這些數(shù)據(jù)的難度,加上成本和時間開銷,這些都是醫(yī)療領域中令人望而卻步的限制因素。雖然眾包實現(xiàn)了對現(xiàn)實世界圖像的大型數(shù)據(jù)庫的注釋,但其在生物醫(yī)學目的上的應用卻需要一個更加深入的理解力,因而需要對實際注釋任務有更精確的定義(Nguyen 和 McKenna 等人)。專家任務被外包給非專家用戶的事實可能會導致雜亂的注釋,引起用戶之間的分歧。許多問題出現(xiàn)在醫(yī)學專家與非專業(yè)人士的知識結合上,比如怎樣結合信息源,如何由他們在性能和其他方面被事先證明過的準確性來評估和混合輸入權重。這些問題由 Albarqouni 等人解決。他們提出一種結合了聚合層 aggregation layer 的網絡,該聚合層被集成到卷積神經網絡中,從而將源于群眾注釋的學習輸入作為網絡學習過程的一部分。顯示結果對深度卷積神經網絡學習的功能給出了有價值的見解。有關醫(yī)學領域中眾包研究最驚人的事實竟是這樣一個結論:一群非專業(yè)的、沒有經驗的用戶實際上可以做得像醫(yī)學專家一樣好。Nguyen 和 McKenna 等人在放射圖像的研究中也觀察到了這點。
D.創(chuàng)新應用和新奇應用案例
Kallenberg[32] 的工作是以乳腺 X 片圖像為輸入數(shù)據(jù)源,運用無監(jiān)督式特征學習來為乳腺的疾病風險打分。他們展示了一種從無標記數(shù)據(jù)來學習層次特征的方法,然后這些特征將會直接輸入到一個簡單分類器中。在這個分類器中,將會進行 2 類不同的操作:1)乳房密度的圖像分割,2)乳腺 X 片紋理的打分。分類器在這兩方面的表現(xiàn)都非常優(yōu)秀。為了控制訓練模型的容量,通過一個稀疏正則化優(yōu)化來控制稀疏的時間和范圍。無監(jiān)督式學習過程中卷積層其實可以看成是一個自動編碼器 autoencoders;在監(jiān)督學習部分,(預先訓練好的)權值和偏差值會進一步運用 softmax 回歸函數(shù)來微調。
Yan[33] 等人的工作中設計了一個多階段(multi-stage)深度學習框架來處理圖像分類問題并且將其用于人體局部特征識別。在預訓練階段,通過多示例學習(multi-instance learning)來訓練卷積神經網絡,從而獲取當前訓練數(shù)據(jù)切片中里最具有辨別力的局部圖塊和無效訊息的局部圖塊。在強化階段,預訓練好的卷積神經網絡將進一步通過相應局部圖像來訓練圖像分類器,從而強化他的分類能力。這個多示例深度學習方法的突出點在于可以自動的完成區(qū)分性的局部圖像和無效訊息的局部圖像的識別。因此,不需要事先的人工標注工作。
回歸網絡在醫(yī)療圖像里的使用不是很常見。Miao 等人提出了一種基于卷積神經網絡的回歸網絡,來實現(xiàn)實時的二維/三維配準。他們提出了三個算法來簡化潛在的映射對象回歸,并且在 CNN 回歸模型中加入了一種強壯的非線性模型。從這個網絡的輸出結果來看,深度學習算法比之前的最優(yōu)算法的結果更準確且魯棒性更好,大幅度提升了基于灰度的二維/三維配準進程。
目前我們仍然在探索神經網絡可以應用的領域,以及在哪些領域上他們的應用和任務維度上會產生持續(xù)的影響。在一個開創(chuàng)性的研究中,Golkov[35] 提出了一個原始化的論證,他運用深度學習來簡化彌散 MRI(核磁共振)圖像數(shù)據(jù)處理,優(yōu)化后僅需一步。他們的研究表明,這種改進使得人們從一個先進的模型獲取標量測量數(shù)據(jù)的掃描時間減少了 12 倍,并且不需要運用擴散模型就能識別異常。揭示擴散加權信號和顯微組織特性之間的關系是值得正視的。Golkov[35] 表示,運用深度神經網絡也許可以揭示這樣的關系:彌散加權成像(DWIs)可以直接被作為輸入數(shù)據(jù),而不是通過模型擬合獲得的標量測量值來處理。這項研究表明基于逐個立體像素的顯微組織預測,以及基于彌散加權成像值的自動無模型圖像分割可以用于健康組織和 MS 病灶的模型訓練中。擴散峰廣為人知的是通過 12 個數(shù)據(jù)點、凸起方向彌散以及僅 8 個數(shù)據(jù)點的密度估計來得到。這個為臨床研究提供了快速且魯棒性更好的方法,同時也表明標準的數(shù)據(jù)處理過程可以用深度學習的方法來簡化。
討論:關鍵問題和展望已有的很多工作顯示,深度網絡的的使用提升了目前的最高水平,且這些提升在很多領域都是一致的。通常情況下,深度學習給出解決方案的所取得的進步是相對直接的,這一點我們可以從醫(yī)療計算領域看到這一明顯的進步。在《醫(yī)療影像中的深度學習:一項令人激動的新科技的綜述和展望》一文中,提出了這樣一些問題:2012 年的大規(guī)模種類識別理論有了 10% 的進步,但如何在應用方面獲得實質性的飛躍呢?所提出的問題正確嗎?探索的方向正確嗎?使用的圖像表達技術足以支撐嗎(比如,2D 還是 3D)?需要從每個醫(yī)療案例中獲得更多的數(shù)據(jù)嗎?還是轉向深度學習更高效?還有更多的相關問題在這篇文章的第二部分被提出來。大部分的問題丞待解決。
在這篇文獻中,可以看出,雖然通過深度網絡可以接觸到監(jiān)督式學習和無監(jiān)督式學習,但是似乎大部分的工作都在使用監(jiān)督式學習。那么在醫(yī)學領域呢?數(shù)據(jù)量是一個關鍵因素,在形式上就要求結合監(jiān)督式學習和無監(jiān)督式學習雙方的優(yōu)點。在醫(yī)學領域,由于很難獲取大數(shù)據(jù)(人工標注難以獲得),所以該領域需要更多的半監(jiān)督式學習和監(jiān)督式學習。
此文包括很多的網絡構架。從當前已發(fā)表的論文中可以看出可變性是非常大的。選擇已知的構架,設計任務穩(wěn)定的構架,跨構架融合等都可能導致可變性。我們可以就此提出一個有趣的問題:如果一個非常深層的殘差網絡,跨過了 152 層,在 ILSVRC 2015 層分類任務上表現(xiàn)最好,那么應用到醫(yī)療上也可以獲得很好的結果嗎?
深度學習一個很重要的方面就是它可以從大量的訓練數(shù)據(jù)中獲益?;?ImageNET 數(shù)據(jù)集在 ILSVRC 競賽后,獲得了計算機視覺上的巨大突破()。相比于其他論文中所用到的訓練數(shù)據(jù)集和測試數(shù)據(jù)集,這個特殊問題所用到的數(shù)據(jù)集非常大(百萬和一千一百相比)。如果我們能構建了類似這么大的公共醫(yī)學圖像數(shù)據(jù)集,我們的社會將受益很大。
為什么這項工作非常有挑戰(zhàn)性呢?第一,很難為構建這樣一個數(shù)據(jù)集籌措資金;第二,要對醫(yī)學圖像數(shù)據(jù)進行高質量的注解,就需要醫(yī)學專業(yè)知識,這不僅非常稀缺且非常昂貴;第三,與自然圖像相比,隱私問題使得醫(yī)療數(shù)據(jù)更難以獲得;第四,醫(yī)療成像的應用廣度需要收集更多不同的數(shù)據(jù)集。盡管存在著這么多障礙,我們還是在數(shù)據(jù)收集和共享數(shù)據(jù)方面有了很快的進展。許多公共數(shù)據(jù)集已經發(fā)布,并且現(xiàn)在在實踐中使用它們了。例如,VISCERAL 和癌癥成像檔案,Roth et al. [13] 和 Shin et al.[17],通過對 CT 掃描擴大的淋巴結圖像進行分析而獲得的數(shù)據(jù)集,已經在癌癥成像檔案上公開,同一研究組也在線上公開了胰腺數(shù)據(jù)集。
自 2007 年以來,在諸如 MICCAI,ISBI 和 SPIE 醫(yī)學成像等醫(yī)學成像會議上舉辦競賽研討會已經成為一種習慣。網站上有大量的數(shù)據(jù)集和正在進行的研究()。使用這些公共基準數(shù)據(jù)集相對于僅使用公共數(shù)據(jù)集具有明顯的優(yōu)勢:競賽提供了要解決的任務的精確定義,并且已經定義一個或多個評估度量,給各種算法提供了公平的評價標準。如果沒有這樣的評價標準,即使各個算法使用相同的數(shù)據(jù)集,也難以將相同問題的不同方法進行比較。例如,其中的三個研究(Anthimopoulos 等 [16],Shin 等 [17] 和 van Tulder 等 [18])使用帶有醫(yī)學注釋的相同胸部間質性肺疾病 CT 掃描數(shù)據(jù)集,但是他們所報告結果卻不同。
在這一方面,一項關于這個問題的研究 (Setio et al. [12]) 在一個對肺結節(jié)的挑戰(zhàn)上初見成果。這項挑戰(zhàn)是由 IEEE 和 ISBI 會議共同組織,所使用的是公開的 LIDC/IDRI 數(shù)據(jù)集,這篇文章中所提建立的系統(tǒng)可直接與其替代方法進行比較。
去年已經有了一個以醫(yī)療圖像分析為平臺,基于機器學習應用的比賽。Kaggle 組織了一次關于識別糖尿病患者眼底彩色圖像的競賽,獎金為 100000 美金。661 支隊伍提交了結果,一共提供了 8000 張圖片。這些數(shù)據(jù)被用于一項特殊研究 (van Grinsven et al. [24])。最近。第二屆通過核磁共振圖片測量心臟體積,得出射血分數(shù)圖像醫(yī)學圖像分析競賽結束了。一共 192 支隊伍參加了比賽,獎金為 200000 美金。 在這兩個比賽中,最優(yōu)秀的競爭者都在使用卷積神經網絡。在所使用的較為好的算法中,使用大數(shù)據(jù)集和深度學習的參賽者顯出了更大的優(yōu)勢,我們希望這種趨勢能繼續(xù)下去。在這種情況下,在接下來的一系列世界范圍內關于提高各種成像的癌癥篩查的準確性的競爭,可能會引起相關人士的關注。
Albarqouni 等人的研究顯示,在線平臺,例如比賽中的那些平臺,可以用于多種目的。它們會促進新的合作,形成解決方案,也能夠通過眾包而獲得大量數(shù)據(jù)的。