谷歌AI進(jìn)軍基因測序領(lǐng)域 人工智能時代一定是必然嗎
在上一周,谷歌發(fā)布了一款叫做DeepVariant的程序。這款程序的作用主要是幫助使用者進(jìn)行基因組數(shù)據(jù)的解讀。其實早在1年前,Google Brain和Verily生命科學(xué)公司就已經(jīng)開發(fā)出本套工具,并在2016年P(guān)recisionFDA Truth Challenge中贏得了最高SNP性能獎。那么,對于我們來說,這套開源工具的意義在哪里呢?接下來,我們就用通俗易懂的語言來簡單剖析一下這套算法中所包含的各種技術(shù)。
DeepVariant究竟是什么?
相信大家都聽說過親子鑒定。歸根到底,它在進(jìn)行的是DNA對比。在每個人的DNA中,有一段重復(fù)的堿基重復(fù)序列,這段序列有著明顯的個人差異。根據(jù)孟德爾的遺傳定律,只要檢測人和被檢測人相互對比這一段重復(fù)的堿基片段即可判斷是否擁有血緣關(guān)系。
但基因?qū)W的應(yīng)用并不只限于此。人類的基因組中有著30億堿基對的序列,對于科學(xué)研究來說,基因的完整堿基排序尤為關(guān)鍵。假如某學(xué)家們想要識別某種疾病的基因,那么就需要大量的數(shù)據(jù)以及多次全部的基因排序,這個時候就需要進(jìn)行完整的測序工作。
目前在科學(xué)領(lǐng)域已有多種DNA測序的方法。其中有一項名為HTS( high-throughput sequencing,高通量測序技術(shù))的技術(shù)。速度快、成本低讓它得到了廣泛地商業(yè)應(yīng)用。但是HTS檢測出來的基因序列并非完整。
對于人類來說,它每次檢測會產(chǎn)生10億個短的序列,而每個序列僅代表人類基因中30億個堿基中的100個。這些小的序列在測量的過程中會出現(xiàn)0.1%到10%的錯誤。所以對于HTS來說,將這些小片段拼湊成一個完整的基因序列并非是一件很容易的事情,其中的一些序列錯誤也會影響到科學(xué)家們的判斷。
在瓶中基因組聯(lián)盟等組織(GIAB)多次測量之后,它們發(fā)布了人類標(biāo)準(zhǔn)參考基因組。在HTS產(chǎn)生結(jié)果之后,讓這些結(jié)果與標(biāo)準(zhǔn)參考基因組做對比,就可以發(fā)現(xiàn)其中的變異點(diǎn)。而變異點(diǎn)形成的原因有兩種,一種是SNP單核苷酸多態(tài)性,另外一種則就是自身的程序錯誤。
而谷歌本次發(fā)布的DeepVariant則就是可以通過深度的學(xué)習(xí)來識別出這兩種錯誤,從而讓HTS的結(jié)果更為準(zhǔn)確。其實在這之前,已經(jīng)有多套人工設(shè)計的算法來進(jìn)行這項工作。其中最廣泛使用的就是GATK。但準(zhǔn)確率和時間成本依然很高。
DeepVariant的原理是將拼接完整序列的問題轉(zhuǎn)換成圖片,經(jīng)過對模型的深層學(xué)習(xí),來檢測圖片中的變異點(diǎn),從而完成對基因變異點(diǎn)的檢測。拿個很簡單例子來說,這里有相似的多張A類、B類圖片。讓DeepVariant通過圖片特征并經(jīng)過一個一個步驟,最終將A類、B類圖片區(qū)分開來。
對于人工算法的GATK來說,DeepVariant在精確度上更勝一籌。
人工智能&學(xué)習(xí)
說起現(xiàn)在科技圈里最火的詞,那‘人工智能’可以算的上是一個。在前幾日的2017中國企業(yè)領(lǐng)袖年會上,李開復(fù)就對‘人工智能’表達(dá)出了厚望。他認(rèn)為“AI時代是一個必然,會取代人類工作”。那么,事實真的如此嗎?
盡管上文中所說的DeepVariant離我們很遠(yuǎn),但在現(xiàn)實生活中,我們已經(jīng)可以看到多個AI的影子。就從我們的手機(jī)來說,智能手機(jī)上搭配的語音助手,A11、麒麟970等CPU上搭載的神經(jīng)網(wǎng)絡(luò)芯片會讓你的手機(jī)變得更加的聰明智能。它能幫助你在照相的時候區(qū)分性別,還能在解鎖的時候識別用戶。
連續(xù)戰(zhàn)勝多位棋圣的Alpha Go也是同樣運(yùn)用了人工智能技術(shù)。除此之外,例如Netflix就通過AI算法為用戶推薦適合它們的節(jié)目。當(dāng)你打開淘寶,你會發(fā)現(xiàn)首頁有著許多你想要的同類商品。其實在你的生活中,已經(jīng)有了許許多多的AI案例。
AI可以讓我們的生活變得更加便利,甚至讓許多不可能的事情變成了可能。在Reedit上就有一位用戶利用開源的學(xué)習(xí)工具偽造出了多名女性的色情電影。他的制作方法也很簡單,首先在Google和Youtube上搜索大量的名人臉部圖像,之后對這些圖像進(jìn)行編譯,最后讓AI學(xué)習(xí)這些臉部并制作影片。
總結(jié)起來,目前人工智能的應(yīng)用可以分為這幾類。一、代替人工的許多重復(fù)性勞動,減少操作成本,使工作變得更加簡便,二、為用戶提供定制信息、三、增添機(jī)器人格,塑造形象,加深互動。
第一點(diǎn),語音助手就是個很好的例子,它可以為用戶減少操作成本。第二點(diǎn),就如同Netflix、淘寶這樣的應(yīng)用,為用戶定制個人信息,用戶可以更直觀、更簡單的看到自己想要的信息流。第三點(diǎn)的一個很好例子就是漢森機(jī)器人技術(shù)公司研發(fā)的一款機(jī)器人,它能夠?qū)W習(xí)適應(yīng)人類的行為,與人類一起工作。讓機(jī)器擁有人格,塑造一個形象,完成從機(jī)械到人類的認(rèn)知轉(zhuǎn)變。
當(dāng)然,這些人工智能可以做到的事情都離不開一個詞,‘學(xué)習(xí)’。當(dāng)你打開語音助手,沖著它喊:“設(shè)定我的名字,我叫XXX“,在下次它喊你的時候,它就會叫出你的名字。當(dāng)你在閑魚搜索”iPhone X”,首頁就會出現(xiàn)多個二手iPhone X??梢哉f,人工智能的核心就在于此。
人的大腦可以在瞬間完成對多張照片的處理,并作出反應(yīng)。機(jī)器則不然,機(jī)器需要通過算法在多張照片中找出特征點(diǎn),并且使用大量的模型來學(xué)習(xí)他們。實際上就是在算法中不斷的調(diào)整權(quán)重比,與真正的所謂強(qiáng)AI還是有著不小的差距。反觀DeepVariant,在原理上其實非常簡單。甚至DeepVariant的團(tuán)隊在接受采訪時,稱自己并不是很了解基因?qū)W。希望DeepVariant公布之后,能夠為其他人工智能公司有著一些思路上的啟發(fā)。
未來
在此時此刻,像DeepVariant這樣的工具也許對我們這樣普通的人來說還有些遙遠(yuǎn)。但不可否認(rèn)的是,DeepVariant背后隱藏的人工智能技術(shù)卻與我們每個人息息相關(guān)。相信就如李開復(fù)先生所說的,“AI時代是一個必然”。在未來,我們的生活周圍也許充滿了大量人工智能的“影子”,許多常見的職業(yè)也已經(jīng)被機(jī)器所取代。
但這又會不禁讓我們思索,在一味追求科技的同時,就業(yè)減少等負(fù)面問題該如何解決。也許在這個快速發(fā)展的時代,我們有的時候應(yīng)該放下腳步,想想未來,這樣才能夠讓AI時代來的更快一些。