騰訊開源首個(gè)3D醫(yī)療影像大數(shù)據(jù)預(yù)訓(xùn)練模型
自然圖像領(lǐng)域中存在著許多海量數(shù)據(jù)集,如ImageNet,MSCOCO?;谶@些數(shù)據(jù)集產(chǎn)生的預(yù)訓(xùn)練模型推動(dòng)了分類、檢測(cè)、分割等應(yīng)用的進(jìn)步。與自然圖像不同的是,醫(yī)療影像大部分都是3D結(jié)構(gòu)形態(tài)的,同時(shí),由于數(shù)據(jù)獲取和標(biāo)注難度大,數(shù)據(jù)量稀少,此前并沒有海量數(shù)據(jù)集及對(duì)應(yīng)的預(yù)訓(xùn)練模型開源。
騰訊優(yōu)圖表示,這正是其開源MedicalNet的原因所在。目前,MedicalNet具備5大特性:
1、預(yù)訓(xùn)練網(wǎng)絡(luò)可遷移到任何3D醫(yī)療影像的AI應(yīng)用中,包括但不限于分割、檢測(cè)、分類等任務(wù);2、尤其適用小數(shù)據(jù)醫(yī)療影像AI場(chǎng)景,能加快網(wǎng)絡(luò)收斂,提升網(wǎng)絡(luò)性能;3、通過簡(jiǎn)單配置少量接口參數(shù)值,即可進(jìn)行微調(diào)訓(xùn)練;4、提供多卡訓(xùn)練以及測(cè)試評(píng)估代碼,接口豐富,擴(kuò)展性強(qiáng);5、提供不同深度3D ResNet預(yù)訓(xùn)練模型,可供不同數(shù)據(jù)量級(jí)應(yīng)用使用。MedicalNet是如何做出來(lái)的?騰訊優(yōu)圖給出了解釋:
MedicalNet聚集了來(lái)自多個(gè)不同3D醫(yī)療領(lǐng)域的語(yǔ)義分割小規(guī)模數(shù)據(jù)集,并提出了基于多分支解碼器的多域聯(lián)合訓(xùn)練模型來(lái)解決數(shù)據(jù)集中的標(biāo)注缺失問題。這一預(yù)訓(xùn)練的適用性也很強(qiáng),可以遷移到任何3D醫(yī)療影像應(yīng)用的深度學(xué)習(xí)模型中。
為了衡量模型效果,他們將MedicalNet模型遷移到預(yù)訓(xùn)練時(shí)未接觸過的Visceral和LIDC數(shù)據(jù)集中。并用它來(lái)完成全新的肺部分割和肺結(jié)節(jié)分類任務(wù),并與目前常用的從零訓(xùn)練(train from scratch)以及Kinetics視頻3D預(yù)訓(xùn)練模型在性能以及收斂速度上做了比較。
在肺部分割應(yīng)用上,與Train from Scratch相比,MedicalNet在Dice上有16%到33%幅度的提升,與KineTIcs相比有4%到7%幅度的提升。在肺結(jié)節(jié)良惡性分類應(yīng)用上,與Train from Scratch先比,MedicalNet的預(yù)測(cè)準(zhǔn)確度提升了6%到23%幅度,與KineTIcs相比,提升了7%到20%。
在收斂速度上,無(wú)論是在肺分割任務(wù)還是肺結(jié)節(jié)分類任務(wù)上,MedicalNet都能為模型提供一個(gè)較低的初始化損失值,明顯加快損失下降速度。騰訊在AI醫(yī)療方面沉淀已久,近年來(lái)業(yè)內(nèi)名聲愈盛,刷新多項(xiàng)世界紀(jì)錄。比如今年6月,全球胸部多器官分割大賽上,騰訊優(yōu)圖與廈門大學(xué)王連生老師實(shí)驗(yàn)室聯(lián)手,刷新3項(xiàng)全球新紀(jì)錄。在此此前,雙方也在肝分割、肝腫瘤分割兩項(xiàng)技術(shù)挑戰(zhàn)賽中斬獲世界第一。
騰訊優(yōu)圖表示,其醫(yī)療AI已經(jīng)具備進(jìn)行上億規(guī)模的模型訓(xùn)練及合作接入的能力。而且,他們不僅僅只是研究,技術(shù)落地也早已開始。近年來(lái),這些醫(yī)療AI技術(shù)正在通過騰訊旗下首個(gè)醫(yī)療影像產(chǎn)品“騰訊覓影”持續(xù)對(duì)外輸出,目前已支持宮頸癌、肺癌、糖尿病視網(wǎng)膜病變等癌癥篩查,并在國(guó)內(nèi)100多家頂尖三甲醫(yī)院進(jìn)行落地。