華大基因借助英特爾微異構(gòu)加速基因測序
基因測序,一直就是科學家不斷地孜孜追求破譯生命遺傳信息的關(guān)鍵方法,而其海量、復(fù)雜、多變的數(shù)據(jù)計算需求一直是橫越在前行道路上的一道鴻溝。隨著多年來超級計算機的不斷發(fā)展,高性能計算在基因測序發(fā)展上發(fā)揮了重大的助推作用。而作為中國首屈一指且世界知名的基因研究機構(gòu)——華大基因,其借助高性能計算優(yōu)勢在基因測序相關(guān)研究及應(yīng)用上作出了令人矚目的成績,而其在全新基于英特爾微異構(gòu)架構(gòu)的高性能計算平臺上的測試,取得了重大進展進一步加速了基因測序。
高性能計算助力基因測序
“每個人約有1萬億個細胞,每個細胞里面都有23對染色體,這些染色體中包含的DNA由ATCG不同堿基序列構(gòu)成,數(shù)量共計達30億,這些基因序列就是破解人類遺傳信息奧秘的鑰匙”,華大基因高性能計算研發(fā)主管王丙強博士介紹到,基因測序工作就是要通過大規(guī)模的計算分析從海量的數(shù)據(jù)信息中辨識載有的基因及其序列,最終獲取遺傳信息。
人類基因組計劃 (human genome project, HGP) 旨在繪制人類基因組圖譜最終達到破譯人類遺傳信息目的,該計劃于1990年正式啟動,而這也正是催生華大基因成立的重要原因。龐大而復(fù)雜的海量數(shù)據(jù)早已超出人類計算的能力,要想及時且準確地大規(guī)模處理這些數(shù)據(jù)就不得不依靠計算機的高性能計算。“華大基因一直非常重視高性能計算平臺的建設(shè)”,王博士介紹到,華大基因建立了基于高性能計算的大規(guī)模測序、生物信息、克隆、健康、農(nóng)業(yè)基因組等技術(shù)平臺,其測序能力及生物信息分析能力世界領(lǐng)先。自1999年成立以來,華大基因成功完成了國際人類基因組計劃“中國部分”在其中承擔了絕大部分工作,并在Nature和Science等國際一流的學術(shù)雜志上發(fā)表百余篇學術(shù)論文,奠定了中國基因組科學在國際上的領(lǐng)先地位。
華大基因目前已在深圳、香港、北京和武漢等地建立多個大型生物信息超級計算中心,總峰值計算能力達到200T flops,總內(nèi)存容量達到35TB,總存儲能力達到16PB。這為海量生物信息學數(shù)據(jù)的存儲、處理和分析提供了穩(wěn)定而高效的保障。其中位于深圳和香港的兩個中心,是目前中國最大的兩個生物信息超級計算中心。
華大基因展示的雜交石斑魚,其生長速度和體重是普通石斑魚的2-3倍,而且口感更好
至強融核 進一步加速基因測序
在尋求更快更高效的高性能計算基因測序方案的過程中,華大基因一直在嘗試新的技術(shù)和方法來進一步加速基因測序。面對復(fù)雜的基因測序數(shù)據(jù)處理,既要擁有高性能的計算能力,又要考慮其經(jīng)濟效益,并結(jié)合未來在相關(guān)研究的發(fā)展,經(jīng)過多番考量和研究,華大基因最終選擇了與英特爾聯(lián)手啟動關(guān)于至強融核協(xié)處理器在生命科學領(lǐng)域的應(yīng)用項目。
至強融核協(xié)處理器(Xeon Phi)是英特爾面向高度并行的高性能計算(HPC)應(yīng)用所推出的協(xié)處理器,能夠提供多達 61個內(nèi)核、244個線程和 1.2萬億次浮點運算性能,此外其余英特爾至強處理器架構(gòu)使用同樣的編程語言、并行模式、技術(shù)和開發(fā)人員工具,具有遷移便捷編程可移植等優(yōu)勢。
“我們愿意嘗試英特爾至強融核,首先是看中了其編碼的簡單可移植性,這是來自基因測序相關(guān)程序的重要需求;其次,我們在未來想借助2013年在全球高性能計算機500強排名第一的廣州天河二號超級計算機的計算能力,而它就正是就基于英特爾微異構(gòu)的。”華大基因高性能計算研發(fā)主管王丙強博士介紹到。
英特爾微異構(gòu) 效果超出預(yù)期
華大基因在基因測序計算中應(yīng)用的是BWA(Burrows-Wheeler Aligner),是基因研究中一款十分優(yōu)秀并且被廣泛使用的序列比對軟件。“由于BWA軟件代碼分支多,并且有很多隨機訪問,起初我們認為BWA移植效果可能不會太好”,王丙強博士介紹到,“然而,實際測試的性能表現(xiàn)非常不錯,大大超出了我們的預(yù)期,我們共嘗試了6種優(yōu)化方法,獲得的最好加速比能達到2.19。”
值得一提的是,微異構(gòu)代碼遷移和優(yōu)化上也帶來了很多優(yōu)勢,王丙強表示,代碼的修改工作量的確不大。“只需要對源代碼進行很小幅度的修改,是添加一些輔助編譯指示,就能在微異構(gòu)上運行的相當好。”他說。
更強計算力 加速生命解謎
在測試基于英特爾微異構(gòu)的高性能計算平臺的同時,華大基因也正在執(zhí)行3M百萬基因組計劃,即百萬動植物基因組計劃、百萬人基因組計劃、百萬微生態(tài)基因組計劃,該項目將聯(lián)合全球科學家,通過上百萬樣本的測序構(gòu)建遺傳信息的數(shù)據(jù)庫,進一步推動基因組測序和生物信息分析技術(shù)在糧食安全、醫(yī)學應(yīng)用、生態(tài)保護等重大發(fā)展問題的應(yīng)用。
“當面對如此規(guī)模的數(shù)據(jù)的項目時,華大基因的計算能力仍顯得有些不足,因此一方面我們不斷擴充自身的數(shù)據(jù)中心,另外也在考慮借助天河二號這樣的超級計算機的計算能力”,王丙強博士介紹到,“這些項目對計算能力的需求非常大,未來就看微異構(gòu)如何來加速這些基因測序的計算和分析了。”