北京時間4月12日消息,據科技網站Computerworld報道,微軟和華盛頓大學研究人員已經展示了利用人工合成DNA作為數據存儲介質的技術。
研究人員表示,如果這一技術成熟到適合主流應用,裝備當今存儲密度最高的存儲設備、沃爾瑪超市般大小的數據中心,就可能“瘦身”到一塊方糖大小,“我們認為,考慮把DNA作為存儲介質,探索相關系統設計問題的時機已經成熟”。
研究團隊成功地將4個圖片文件的數據編碼為人工合成DNA片段的核苷酸序列。更重要的是,他們能實現逆過程——從更大的DNA池中取回正確的核苷酸序列,重建圖像,而且沒有丟失1個字節(jié)的信息。另一項試驗涉及對視頻文件的編碼和讀取。
DNA存儲技術
華盛頓大學計算機科學和技術副教授、論文共同作者路易斯·塞茲(Luis Ceze)在一份聲明中說,“生命產生了神奇的DNA,它能高效地存儲與基因和生命活動有關的所有信息,而且非常緊湊,非常‘耐用’。我們將把DNA用于數據存儲——圖像、視頻、文檔,保存時間可以長達數百或數千年。”
DNA存儲技術研究進展神速
對DNA數據存儲技術的研究進展神速。1999年,研究人員利用DNA存儲技術編碼和恢復了一條長23個字母的信息。到2013年,歐洲分子生物學實驗室-歐洲生物信息學研究所的科學家,把美國黑人運動領袖馬丁·路德·金(Martin Luther King)《我有一個夢想》演講的mp3文件編碼在DNA中。
研究人員在發(fā)表在《自然》上的論文中稱,這種編碼方法使得約一杯DNA能存儲至少1億小時的高清視頻。
據英國研究人員稱,存儲在DNA鏈中的數據能保存數萬年。
在DNA存儲技術中,讀取DNA相對簡單,主要障礙在于寫DNA。DNA存儲技術存在兩個難點:其一,目前的方法只能合成短鏈DNA;其二,寫和讀DNA都容易出錯。
微軟和華盛頓大學研究人員稱,他們已經開發(fā)了“一種新穎的方法”,把數據中的“1”和“0”字符串轉換成DNA序列中的4種堿基——腺嘌呤(A)、鳥嘌呤(G)、胞嘧啶(C)和胸腺嘧啶(T)。
為了訪問存儲的數據,研究人員在DNA序列中編碼了相當于郵政編碼和街道地址的尋址信息。聚合酶鏈反應(以下簡稱“PCR”)技術幫助研究人員更輕松地識別他們需要查找的“郵政編碼”。
研究人員然后利用DNA測序技術,“讀取”數據,并通過利用“街道地址”對數據進行整理,將數據恢復成原來的視頻、圖像或文檔。
研究人員表示,“DNA是一種有吸引力的潛在數據存儲介質”,理論上其存儲密度比磁帶高出8個量級,一個可以拿在手里的磁帶盒存儲容量高達185TB。
微軟和華盛頓大學研究人員也證實了人工合成DNA的“長壽”,稱即使在惡劣環(huán)境中其半衰期也超過500年,磁帶保存時間為10-30年,硬盤為3-5年。
還不夠完美
美國研究人員強調了提高存儲密度的緊迫性。市場研究公司IDC和存儲設備廠商EMC在《The Digital Universe》研究論文中稱,到2020年,包含在全球計算機、歷史檔案、電影、照片、企業(yè)系統和移動設備中的數據量將達到44萬億GB,“是2013年的10倍。盡管并非所有信息都需要保存,但世界生成數據的速度快于存儲容量的增長”。
要進入商用階段,DNA存儲系統還有一些問題需要解決。首先是DNA合成和測序還遠不夠完美,DNA存儲系統的一個關鍵部分是開發(fā)一種適當的編碼技術,通過增加冗余度提高容錯能力。
其次,DNA存儲系統中隨機存取數據還是個問題,讀取延遲遠長于寫入延遲。目前的技術只能批量讀取數據,即使只從存儲系統中訪問一個字節(jié)的信息,系統也必須對整個DNA池進行測序和解碼。
把數據編碼為DNA序列
研究人員已經提出了改進隨機數據存取的方法,即利用PCR只擴增希望讀取的數據,并對相應的DNA序列測序。這種方法既能提高數據讀取速度,也無需對整個DNA池進行測序。
塞茲稱,“這是我們在數據存儲方面向大自然學習的一個范例。”