騰訊醫(yī)療AI開(kāi)源模型讓3D醫(yī)療應(yīng)用性能提升
騰訊優(yōu)圖首個(gè)醫(yī)療AI深度學(xué)習(xí)預(yù)訓(xùn)練模型MedicalNet正式對(duì)外開(kāi)源。據(jù)稱(chēng),這是全球第一個(gè)提供多種3D醫(yī)療影像專(zhuān)用預(yù)訓(xùn)練模型的項(xiàng)目,將為全球醫(yī)療AI發(fā)展提供基礎(chǔ)。許多研究表明,深度學(xué)習(xí)的發(fā)展非常依賴(lài)數(shù)據(jù)量。自然圖像領(lǐng)域中存在著許多海量數(shù)據(jù)集,如ImageNet,MSCOCO?;谶@些數(shù)據(jù)集產(chǎn)生的預(yù)訓(xùn)練模型推動(dòng)了分類(lèi)、檢測(cè)、分割等應(yīng)用的進(jìn)步。
不同于自然圖像,醫(yī)療影像大部分都是3D結(jié)構(gòu)形態(tài)的,同時(shí),由于數(shù)據(jù)獲取和標(biāo)注難度大,數(shù)據(jù)量稀少,目前尚未存在海量數(shù)據(jù)集及對(duì)應(yīng)的預(yù)訓(xùn)練模型。
MedicalNet是由騰訊優(yōu)圖開(kāi)發(fā)的一系列預(yù)訓(xùn)練模型,在深度學(xué)習(xí)應(yīng)用基礎(chǔ)上開(kāi)發(fā)而成,專(zhuān)用于3D醫(yī)療影像。據(jù)稱(chēng),MedicalNet可以為任何3D醫(yī)療影像AI應(yīng)用起到“打地基”的作用,加快模型收斂,減輕模型對(duì)數(shù)據(jù)量的依賴(lài)。
據(jù)了解,MedicalNet具備以下特性:1、MedicalNet提供的預(yù)訓(xùn)練網(wǎng)絡(luò)可遷移到任何3D醫(yī)療影像的AI應(yīng)用中,包括但不限于分割、檢測(cè)、分類(lèi)等任務(wù);2、尤其適用小數(shù)據(jù)醫(yī)療影像AI場(chǎng)景,能加快網(wǎng)絡(luò)收斂,提升網(wǎng)絡(luò)性能;3、通過(guò)簡(jiǎn)單配置少量接口參數(shù)值,即可進(jìn)行微調(diào)訓(xùn)練;4、項(xiàng)目提供多卡訓(xùn)練以及測(cè)試評(píng)估代碼,接口豐富,擴(kuò)展性強(qiáng);5、提供不同深度3D ResNet預(yù)訓(xùn)練模型,可供不同數(shù)據(jù)量級(jí)應(yīng)用使用。
為了產(chǎn)生3D醫(yī)療影像的預(yù)訓(xùn)練模型,MedicalNet聚集多個(gè)來(lái)自不同3D醫(yī)療領(lǐng)域的語(yǔ)義分割小規(guī)模數(shù)據(jù)集,并提出了基于多分支解碼器的多域聯(lián)合訓(xùn)練模型來(lái)解決數(shù)據(jù)集中的標(biāo)注缺失問(wèn)題。據(jù)稱(chēng),該團(tuán)隊(duì)的預(yù)訓(xùn)練模型可以遷移到任何3D醫(yī)療影像應(yīng)用的深度學(xué)習(xí)模型中。
該團(tuán)隊(duì)將MedicalNet模型遷移到預(yù)訓(xùn)練時(shí)未接觸過(guò)的Visceral和LIDC數(shù)據(jù)集中,完成全新的肺部分割和肺結(jié)節(jié)分類(lèi)任務(wù),并與目前常用的從零訓(xùn)練(train from scratch)以及Kinetics視頻3D預(yù)訓(xùn)練模型在性能以及收斂速度上做了比較。
據(jù)稱(chēng),在肺部分割應(yīng)用上,相比于Train from Scratch,MedicalNet在Dice上有16%到33%幅度的提升,相比于KineTIcs有4%到7%幅度的提升。在肺結(jié)節(jié)良惡性分類(lèi)應(yīng)用上,相比于Train from Scratch,MedicalNet有6%到23%幅度的預(yù)測(cè)正確率(Acc)提升,相比于KineTIcs有7%到20%幅度的提升。
在收斂速度上,實(shí)驗(yàn)證明,無(wú)論是在肺分割任務(wù)還是肺結(jié)節(jié)分類(lèi)任務(wù)上,MedicalNet均能為模型提供一個(gè)較低的初始化損失值,明顯加快損失下降速度,下圖為MedicalNet性能的一個(gè)簡(jiǎn)單示例,展示了在全器官分割應(yīng)用中,不同預(yù)訓(xùn)練方式在一定訓(xùn)練迭代次數(shù)下的測(cè)試結(jié)果。可以看出,基于我們的預(yù)訓(xùn)練模型(MedicalNet)的結(jié)果最接近標(biāo)簽(ground truth),且遠(yuǎn)優(yōu)于從零訓(xùn)練(train from scratch)的結(jié)果,更多細(xì)節(jié)請(qǐng)參考論文(論文:《Med3D: Transfer Learning for 3D Medical Image Analysis》)。
隨著人工智能的火熱化,醫(yī)療影像AI也成為了當(dāng)前各應(yīng)用領(lǐng)域中最熱門(mén)的版塊。區(qū)別于其他人工智能應(yīng)用,人工智能在醫(yī)療領(lǐng)域的應(yīng)用門(mén)檻最高,最大的原因在于標(biāo)注數(shù)據(jù)的匱乏。醫(yī)療影像數(shù)據(jù)的獲取通常需要經(jīng)歷重重關(guān)卡,同時(shí),由于領(lǐng)域的專(zhuān)一性,數(shù)據(jù)通常需要資深醫(yī)師標(biāo)注,而每個(gè)3D數(shù)據(jù)的標(biāo)注耗時(shí)耗力。在當(dāng)前緊張的醫(yī)護(hù)資源下,醫(yī)療影像數(shù)據(jù)的獲取戰(zhàn)線將非常漫長(zhǎng),大大阻礙了應(yīng)用落地的進(jìn)程。再者,標(biāo)注數(shù)據(jù)量相當(dāng)有限,大部分醫(yī)療部門(mén)都需要面臨數(shù)據(jù)量稀少和深度學(xué)習(xí)之間的鴻溝。
專(zhuān)有領(lǐng)域?qū)S心P?,MedicalNet相當(dāng)于為各個(gè)3D醫(yī)療影像應(yīng)用準(zhǔn)備了具備臨床通用知識(shí)的數(shù)據(jù)庫(kù)。即使在小數(shù)據(jù)量中,該數(shù)據(jù)庫(kù)的有效特征也能幫助落地應(yīng)用取得較好的醫(yī)療檢測(cè)性能,這大大減輕醫(yī)療影像AI應(yīng)用對(duì)數(shù)據(jù)量的依賴(lài),實(shí)現(xiàn)了落地需求,加快了落地速度。
截至2019年8月,騰訊已在Github上發(fā)布81個(gè)開(kāi)源項(xiàng)目,包含騰訊AI、微信、騰訊云、騰訊安全等相關(guān)領(lǐng)域,并累計(jì)在 Github 獲得了超過(guò)23萬(wàn)Star數(shù),在國(guó)內(nèi)和國(guó)際收獲了關(guān)注和認(rèn)可。MedicalNet是騰訊在醫(yī)療AI領(lǐng)域的首個(gè)開(kāi)源項(xiàng)目,有望為全球醫(yī)療AI發(fā)展提供重要基礎(chǔ)。騰訊表示,后續(xù)也將繼續(xù)提供更多類(lèi)型的模型,為全球醫(yī)療AI的基礎(chǔ)建設(shè)助力。