對于癱瘓且喪失語言功能的人來說,語言信號被封藏在大腦中,沒有人能夠直接破譯。最知名的例子就是物理學(xué)家霍金,他生前曾患上肌萎縮性脊髓側(cè)索硬化癥(俗稱“漸凍癥”),全身癱瘓,又因一次肺炎手術(shù)失去語言能力,只能通過一種叫做“Cheek Switch”的面部打字裝置與外界溝通。
近日,三個國際科研小組嘗試破譯大腦的語言信號。他們使用大腦數(shù)據(jù)訓(xùn)練出了一種人工智能系統(tǒng),該系統(tǒng)結(jié)合深度學(xué)習(xí)和語音合成技術(shù)的最新進展,可以將大腦活動數(shù)據(jù)轉(zhuǎn)化成語音。
三組研究人員在人們大聲朗讀、默念或聽錄音時監(jiān)控他們大腦的某些部位來采集數(shù)據(jù),再把收集到的大腦信號轉(zhuǎn)化成人類聽眾能夠理解的單詞和簡單句,轉(zhuǎn)化準(zhǔn)確率在40%至80%之間。相關(guān)研究于2018年10月至11月發(fā)表在生物學(xué)預(yù)印本網(wǎng)站bioRxiv上。
收集大腦活動數(shù)據(jù)的過程十分艱難。來自第一個研究團隊的哥倫比亞大學(xué)計算機科學(xué)家Nima Mesgaran介紹,這項研究用到的神經(jīng)網(wǎng)絡(luò)計算模型要求相當(dāng)精確的數(shù)據(jù),需通過打開頭蓋骨植入電極的侵入方式獲齲只有少數(shù)腦外科手術(shù)可以進行這種侵入式的信息收集,可供收集的時間通常只有20至30分鐘。另外,將大腦信號轉(zhuǎn)換為語音的方式因人而異,計算機模型必須針對每個人進行“培訓(xùn)”。
在Mesgaran等人的研究中,他們讓5位癲癇患者聽0到9的數(shù)字錄音,并在此過程中采集他們的聽覺皮層信息。然后,神經(jīng)網(wǎng)絡(luò)計算模型用收集到的神經(jīng)信號生成語音信息。當(dāng)計算機合成并播放出這些0到9的語音信息時,人類聽眾將其正確辨認(rèn)的概率為75%。
加州大學(xué)舊金山分校的Gopala K Anumanchipalli 教授團隊做了類似的研究。他們收集了3位癲癇患者朗讀文本時的神經(jīng)信號,通過AI系統(tǒng)轉(zhuǎn)化成語音信息。研究人員邀請了166位志愿者來辨別這些語句,其中一些句子的識別率超過80%。這項研究發(fā)表于2018年11月。
另一類數(shù)據(jù)來自接受腦瘤手術(shù)的患者。德國不來梅大學(xué)的Miguel Angrick和荷蘭馬斯特里赫特大學(xué)的Christian Herff收集了6個腦瘤手術(shù)患者的數(shù)據(jù)。在患者朗讀單詞時,研究人員記錄下他們大腦語言區(qū)和運動區(qū)的神經(jīng)信號并生成語音信息。研究人員發(fā)現(xiàn),約40%的計算機合成單詞可以被人類聽眾理解。
然而,這些研究還處于早期階段,只能收集并解讀人們說話時的大腦信息,尚不能為完全喪失語言功能的人服務(wù)。完全喪失語言功能的人無法開口說話,只能在心中默念。而圣地亞哥州立大學(xué)的神經(jīng)科學(xué)家Stephanie Riès介紹,人們在默念時產(chǎn)生的大腦信號與說話時的大腦信號并不相同,如果沒有外部聲音的配合,計算機甚至很難分辨出大腦語言信號的起始點。這也意味著,人類距離使用腦機接口和人工智能技術(shù)讓失語者“開口說話”的那一天還很遠。