Enlitic研制基于深度學(xué)習(xí)的癌癥檢測(cè)系統(tǒng) 肺癌檢出率超過醫(yī)生
近年,從圖像中識(shí)別出對(duì)象物的“圖像識(shí)別技術(shù)”的性能借助“深度學(xué)習(xí)”得以迅速提高。總部位于美國舊金山的新興企業(yè) Enlitic將深度學(xué)習(xí)運(yùn)用到了癌癥等惡性腫瘤的檢測(cè)中。該公司開發(fā)的系統(tǒng)的癌癥檢出率高于放射技師。深度學(xué)習(xí)是使用模擬人腦結(jié)構(gòu)的“深度神經(jīng)網(wǎng)絡(luò)”的一種機(jī)器學(xué)習(xí)方法,也可用于語音識(shí)別及自然語音處理等,但取得顯著成果的要數(shù)圖像識(shí)別領(lǐng)域。
測(cè)試圖像識(shí)別技術(shù)性能的競(jìng)賽中,采用圖像數(shù)據(jù)庫“ImageNet”的“ILSVRC”(ImageNet大規(guī)模視覺識(shí)別挑戰(zhàn)賽)最為有名。在谷歌、英特爾、高通、騰訊等知名IT企業(yè)參加的2015年的ILSVRC中,微軟研究院獲勝。此次競(jìng)賽的測(cè)試內(nèi)容是能否對(duì)1000種圖片進(jìn)行準(zhǔn)確分類,微軟的分類錯(cuò)誤率只有3.6%。
過去幾屆競(jìng)賽的分類錯(cuò)誤率最小值方面,2014年為7.4%,2013年為11.1%,2012年為15.3%。在這項(xiàng)賽事中,采用深度學(xué)習(xí)的隊(duì)伍獲勝是在2012年。當(dāng)時(shí),15.3%的分類錯(cuò)誤率已低得“讓人震驚”。僅僅3年之后,獲勝的微軟研究院就提出,基于深度學(xué)習(xí)的圖像識(shí)別技術(shù)的識(shí)別精度能夠超過人類。
不過,Enlitic公司的數(shù)據(jù)分析師Rewon Child(圖1)表示,“ImageNet的競(jìng)賽只是辨認(rèn)縱224像素×橫224像素的圖片上的物體是貓還是狗,這個(gè)任務(wù)并不難”。他還指出,“我們正在挑戰(zhàn)更難的圖像識(shí)別”。
圖1:Enlitic公司數(shù)據(jù)分析師Rewon Child
Enlitic要挑戰(zhàn)的更難的圖像識(shí)別是:從X光、CT掃描、超聲波檢查、MRI等的圖像中找出癌癥等惡性腫瘤。 Child解釋說:“X光照片的分辨率為縱3000像素×橫2000像素。其中的惡性腫瘤的尺寸為縱3像素×橫3像素左右。從非常大的圖像上判斷一個(gè)很小的陰影狀物體是不是惡性腫瘤,是非常難的任務(wù)”。
從X光照片及CT掃描圖像中找出惡性腫瘤的圖像識(shí)別軟件是利用深度學(xué)習(xí)的方法之一 “Convolutional Neural Network(ConvNet,卷積神經(jīng)網(wǎng)絡(luò))”開發(fā)的。ConvNet對(duì)放射技師檢查過有無惡性腫瘤及腫瘤位置等的大量醫(yī)療圖像數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí),自動(dòng)總結(jié)出代表惡性腫瘤形狀等的“特征”以及重視哪些特征能夠判斷有無惡性腫瘤等“模式”。ConvNet將找出的模式應(yīng)用于新的醫(yī)療圖像,便可知道圖像中是否存在惡性腫瘤。
據(jù)Enlitic介紹,該公司開發(fā)的惡性腫瘤檢測(cè)系統(tǒng)的精度超過放射技師。Enlitic使用肺癌相關(guān)圖像數(shù)據(jù)庫 “LIDC(Lung Image Database Consortium)”和 “NLST(National Lung Screening Trial)”進(jìn)行了驗(yàn)證,結(jié)果發(fā)現(xiàn),該公司開發(fā)的系統(tǒng)的肺癌檢出精度比一名放射技師檢查肺癌的精度高5成以上。
Enlitic將向放射技師提供惡性腫瘤檢出系統(tǒng)(圖2)。在美國,放射技師受雇于醫(yī)療圖像診斷服務(wù)公司和醫(yī)療機(jī)構(gòu),這些企業(yè)和機(jī)構(gòu)將成為Enlitic 公司的客戶。2015年10月,澳大利亞的醫(yī)療圖像診斷服務(wù)公司Capitol Health宣布采用Enlitic的系統(tǒng)。這是Enlitic公司的系統(tǒng)第一次被采用。同時(shí),Capitol Health對(duì)Enlitic出資1000萬美元。
圖2:使用Enlitic的系統(tǒng)檢測(cè)惡性腫瘤的示意圖 出處:美國Enlitic公司
Child介紹說,“放射技師診斷1名患者的CT掃描圖像需要10~20分鐘,寫診斷報(bào)告需要10分鐘左右。而如果采用本公司的系統(tǒng),可以使CT掃描圖像的診斷時(shí)間減半”。他還預(yù)測(cè)道,“雖說采用圖像識(shí)別技術(shù)就可以判斷有無惡性腫瘤,但鑒于政府規(guī)定等,醫(yī)療機(jī)構(gòu)不可能不用放射技師。但是,如果放射技師的工作效率增加到原來的2倍,發(fā)展中國家的患者就能更方便地使用CT掃描了”。
醫(yī)療外行人開發(fā)的出色的應(yīng)用
關(guān)于Enlitic公司,筆者非常感興趣的是該公司的成員。據(jù)Child介紹,該公司的數(shù)據(jù)分析師都是沒有醫(yī)療工作經(jīng)歷的人。Child本人是在美國耶魯大學(xué)專修的政治學(xué),學(xué)習(xí)了使用統(tǒng)計(jì)學(xué)等計(jì)量方法分析社會(huì)的“計(jì)量社會(huì)科學(xué)”。
該公司的數(shù)據(jù)分析師全是從“Kaggle”網(wǎng)站招聘的。Kaggle是給全球的數(shù)據(jù)分析師提出數(shù)據(jù)分析相關(guān)課題,并比較研究成果的“數(shù)據(jù)預(yù)測(cè)競(jìng)賽”網(wǎng)站。課題均設(shè)有獎(jiǎng)金,數(shù)據(jù)分析師解決課題便可獲得獎(jiǎng)金。
在Kaggle上提出課題的是希望將數(shù)據(jù)分析委托給外部的企業(yè)以及想尋找優(yōu)秀數(shù)據(jù)分析師的企業(yè)。Enlitic在Kaggle上提出課題,并聘用了完美解決了該課題的分析師。跟醫(yī)療知識(shí)沒有關(guān)系。
Enlitic公司為何選擇Kaggle其實(shí),Enlitic的創(chuàng)始人兼CEO(首席執(zhí)行官)Jeremy Howard也曾是Kaggle的總裁兼首席分析師。也就是說,Enlitic公司也是知道通過Kaggle可以找到優(yōu)秀數(shù)據(jù)分析師的Howard,為了充分利用數(shù)據(jù)分析師開展新業(yè)務(wù)而成立的公司。
數(shù)據(jù)分析師已開始改變產(chǎn)業(yè)
Child說,“Howard想創(chuàng)建一家能讓優(yōu)秀數(shù)據(jù)分析師持續(xù)工作25年的企業(yè),因此創(chuàng)辦了Enlitic公司。聽說他設(shè)想的業(yè)務(wù)除了醫(yī)療圖像診斷外,還考慮過尋找石油和天燃?xì)獾?rdquo;。數(shù)據(jù)分析師站在最前沿,然后才有應(yīng)用領(lǐng)域。
Child說,“Kaggle給每個(gè)人都提供機(jī)會(huì),只要能寫出色的代碼,能力就會(huì)得到認(rèn)可,這是一個(gè)非常公平、民主的地方”。聚集在這里的數(shù)據(jù)分析師在完全沒有“業(yè)務(wù)知識(shí)”的領(lǐng)域開發(fā)應(yīng)用軟件,已開始取得超越現(xiàn)有內(nèi)行人的成果。通過Enlitic公司,不僅能預(yù)測(cè)醫(yī)療行業(yè),還能預(yù)測(cè)整個(gè)產(chǎn)業(yè)界的未來,從這個(gè)意義上說,該公司也是非常重要的存在。