當(dāng)前位置:首頁(yè) > 智能硬件 > 智能硬件
[導(dǎo)讀]近日,來(lái)自加州大學(xué)舊金山分校的研究者開發(fā)出了一種能將大腦信號(hào)轉(zhuǎn)換為語(yǔ)音的虛擬假體語(yǔ)音系統(tǒng),可幫助癲癇和其他神經(jīng)性疾病患者還原語(yǔ)音能力。

 這項(xiàng)研究成果于 4 月 24 日發(fā)表在《自然》雜志上,并得到了多家媒體的報(bào)道,其中就包括《紐約時(shí)報(bào)》。AI 科技評(píng)論將《紐約時(shí)報(bào)》的這篇報(bào)道編譯如下。

「我在腦海中將每一個(gè)句子都過(guò)十遍,或刪掉一個(gè)單詞,或再添加一個(gè)形容詞,并通過(guò)背誦來(lái)逐段地琢磨我的文字?!笿ean-Dominique Bauby 在他的回憶錄《潛水鐘和蝴蝶》中這樣寫道。作為一位記者兼編輯,Bauby 在這本書里回憶了那次讓他的全身都幾乎無(wú)法動(dòng)彈的癱瘓性中風(fēng)之前和之后的生活。他眨著眼皮,逐字將書中的內(nèi)容讀出來(lái)。

成千上萬(wàn)的人由于在事故或爭(zhēng)斗中受傷,或患上中風(fēng)或肌萎縮側(cè)索硬化(ALS)等神經(jīng)退行性疾病而喪失說(shuō)話能力,都同樣地遭遇著溝通困境。

而現(xiàn)在,科學(xué)家們?cè)趫?bào)告中提出,他們已經(jīng)開發(fā)了一種虛擬的假體語(yǔ)音系統(tǒng),該系統(tǒng)能夠解碼大腦的說(shuō)話意圖,并將它們轉(zhuǎn)化為基本可以理解的言語(yǔ),而不需要移動(dòng)任何肌肉,甚至是口腔內(nèi)的肌肉。(物理學(xué)家兼作家斯蒂芬 · 霍金,曾經(jīng)就使用他臉頰上的肌肉在鍵盤上打出字符,然后計(jì)算機(jī)再將這些字符合成為語(yǔ)音。)

佛羅里達(dá)州杰克遜維爾市梅奧醫(yī)學(xué)中心(Mayo clinic)的神經(jīng)科醫(yī)生兼神經(jīng)科學(xué)家 Anthony Ritaccio 博士并非該研究組的成員,他表示:「這(AI 科技評(píng)論注:解碼大腦信號(hào))是一項(xiàng)艱巨的工作,它推動(dòng)我們進(jìn)入了語(yǔ)音還原的另一個(gè)層次」。

實(shí)際上,此前研究人員就已經(jīng)開發(fā)出了其他的虛擬語(yǔ)音輔助工具。它們都通過(guò)解碼負(fù)責(zé)識(shí)別字母和單詞以及口頭表示的大腦信號(hào)來(lái)實(shí)現(xiàn)語(yǔ)音輔助,但是這些方法在自然語(yǔ)言表達(dá)的速度和流動(dòng)性上尚顯不足。

這個(gè)新系統(tǒng)的相關(guān)工作于周三發(fā)表在《自然》雜志上,它譯解了大腦在說(shuō)話期間用來(lái)指導(dǎo)聲帶運(yùn)動(dòng)(如舌頭與口腔的碰撞、嘴唇縮窄等)的控制命令,產(chǎn)生的句子在可理解的同時(shí),也接近于說(shuō)話者自然的說(shuō)話節(jié)奏。

專家們認(rèn)為,這項(xiàng)新的工作成果代表了一次「原理論證」,它預(yù)示著某些事情經(jīng)過(guò)進(jìn)一步的實(shí)驗(yàn)和提升后可能實(shí)現(xiàn)的目標(biāo)。研究者在能正常說(shuō)話的人身上測(cè)試了該系統(tǒng),不過(guò)還尚未將其放在那些身患造成解碼難度或無(wú)法實(shí)現(xiàn)的神經(jīng)性疾病或重傷(例如常見的中風(fēng))的患者身上進(jìn)行測(cè)試。

針對(duì)新的試驗(yàn),加州大學(xué)舊金山分校和加州大學(xué)伯克利分校的科學(xué)家們招募了五名在醫(yī)院接受癲癇手術(shù)評(píng)估的患者。

ECoG 電極矩陣由能夠記錄大腦活動(dòng)的顱內(nèi)電極組成(圖源:加州大學(xué)舊金山分校)

Gopala Anumanchipalli 是加州大學(xué)舊金山分校的神經(jīng)學(xué)家,他正拿著一個(gè)跟在當(dāng)前研究中所使用的電極矩陣非常相似的電極矩陣(圖源:加州大學(xué)舊金山分校)

許多癲癇患者都由于藥物治療效果不佳而選擇接受腦部手術(shù)。在手術(shù)前,醫(yī)生必須首先找到癲癇在每個(gè)人的大腦中發(fā)作的「熱點(diǎn)」,這通過(guò)在大腦中或大腦表面上放置電極,并聽取明顯的電風(fēng)暴 (electrical storms) 來(lái)完成。

對(duì)此位置進(jìn)行精確定位可能需要耗費(fèi)數(shù)周時(shí)間。在此期間,患者通過(guò)在涉及到運(yùn)動(dòng)和聽覺信號(hào)的大腦區(qū)域里面或附近植入電極來(lái)度日。這些患者往往會(huì)同意在這些植入物體上搭載其他額外的實(shí)驗(yàn)。

加州大學(xué)舊金山分校的這五名此類患者就接受在他們身上測(cè)試虛擬語(yǔ)音生成器。研究者在他們每個(gè)人的大腦中都植入了一個(gè)或兩個(gè)電極矩陣:郵票大小的襯墊包裹了數(shù)百個(gè)被放置在大腦表層的微小電極。

當(dāng)每個(gè)志愿者在背誦數(shù)百個(gè)句子時(shí),電極就會(huì)記錄下運(yùn)動(dòng)皮層中神經(jīng)元的發(fā)射模式。研究人員將這些模式與患者在自然說(shuō)話期間所發(fā)生的嘴唇、舌頭、喉部以及下頜的微妙運(yùn)動(dòng)聯(lián)系起來(lái)。之后,研究團(tuán)隊(duì)再將這些運(yùn)動(dòng)轉(zhuǎn)譯為成口頭表達(dá)的句子。

另外在實(shí)驗(yàn)中,研究者還讓以英語(yǔ)為母語(yǔ)的人聽取句子來(lái)測(cè)試虛擬語(yǔ)音生成器的流暢度,最終發(fā)現(xiàn)虛擬系統(tǒng)說(shuō)出的 70% 的內(nèi)容都是可理解的。

 

Edward Chang 博士致力于研究大腦如何產(chǎn)生和分析語(yǔ)音,他開發(fā)了一個(gè)為癲癇和其他神經(jīng)性疾病患者還原語(yǔ)音能力的假體。(圖源:加州大學(xué)舊金山分校)

這項(xiàng)新研究工作的論文作者、加州大學(xué)舊金山分校神經(jīng)外科教授 Edward Chang 博士表示,「實(shí)驗(yàn)顯示,我們通過(guò)解碼指導(dǎo)發(fā)音的大腦活動(dòng)模擬出來(lái)的語(yǔ)音,比根據(jù)從大腦中提取出來(lái)的聲音表示而合成的語(yǔ)音更準(zhǔn)確,也更自然。」Edward Chang 博士的同事是同在加州大學(xué)舊金山分校的 Gopala K. Anumanchipalli 以及同時(shí)在加州大學(xué)舊金山分校和加州大學(xué)伯克利分校任教的 Josh Chartier。

以前基于植入物的通信系統(tǒng),每分鐘可生成大約 8 個(gè)單詞。而這項(xiàng)新成果每分鐘能以自然的說(shuō)話節(jié)奏生成約 150 個(gè)單詞。

研究人員還發(fā)現(xiàn),其他人可以使用和調(diào)整基于某個(gè)人的大腦活動(dòng)的合成語(yǔ)音系統(tǒng)——這就暗示著現(xiàn)有的虛擬系統(tǒng)在未來(lái)某一天都能夠?qū)ν忾_放。

該團(tuán)隊(duì)正計(jì)劃展開臨床試驗(yàn)以進(jìn)一步測(cè)試該系統(tǒng)。而臨床試驗(yàn)面臨的最大挑戰(zhàn),可能是尋找合適的患者:讓人類喪失說(shuō)活能力的中風(fēng),往往也會(huì)損害或影響到支持語(yǔ)音發(fā)音的大腦區(qū)域。

盡管如此,眾所周知,腦機(jī)接口技術(shù)(相關(guān)技術(shù)可查看雷鋒網(wǎng) AI 科技評(píng)論此前的一篇相關(guān)報(bào)道)領(lǐng)域正在迅速發(fā)展,世界各地的研究團(tuán)隊(duì)也正在改進(jìn)這項(xiàng)技術(shù),未來(lái)有可能實(shí)現(xiàn)對(duì)特定傷患進(jìn)行腦器接口技術(shù)的量身定制。

埃默里大學(xué)、佐治亞理工學(xué)院的生物醫(yī)學(xué)工程師 Chethan Pandarinath 和 Yahia H. Ali 在一篇附隨評(píng)論中寫道:「隨著這項(xiàng)新技術(shù)的持續(xù)進(jìn)步,我們能夠期待有言語(yǔ)障礙的人能夠(憑借這項(xiàng)技術(shù))重新獲得自由表達(dá)個(gè)人想法的能力,并與其周圍的世界重新建立聯(lián)系。」

論文:《Speech synthesis from neural decoding of spoken sentences》

下載地址:https://www.nature.com/articles/s41586-019-1119-1

摘要:將神經(jīng)活動(dòng)轉(zhuǎn)換成語(yǔ)音的技術(shù)對(duì)于因神經(jīng)系統(tǒng)損傷而無(wú)法正常交流的人來(lái)說(shuō),是革命性的。從神經(jīng)活動(dòng)中解碼語(yǔ)音極具挑戰(zhàn)性,因?yàn)檎f(shuō)話者需要對(duì)聲道發(fā)聲進(jìn)行非常精準(zhǔn)、快速的多維度控制。這項(xiàng)新研究設(shè)計(jì)了一個(gè)神經(jīng)解碼器,以顯式地利用人類大腦皮層活動(dòng)中進(jìn)行了編碼的運(yùn)動(dòng)表示和聲音表示來(lái)合成語(yǔ)音。首先,用循環(huán)神經(jīng)網(wǎng)絡(luò)直接將記錄的大腦皮層活動(dòng)解碼為發(fā)音運(yùn)動(dòng)的表示,然后將這些表示轉(zhuǎn)換為語(yǔ)音。在封閉的詞匯測(cè)試中,聽眾可以識(shí)別和轉(zhuǎn)錄出利用大腦皮層活動(dòng)合成的語(yǔ)音。中間的發(fā)音動(dòng)態(tài)即使在數(shù)據(jù)有限的情況下也能幫助提升性能。講話者可以較大程度地保存經(jīng)過(guò)解碼的發(fā)音運(yùn)動(dòng)表示,從而使得解碼器的組件可在不同參與者之間遷移。此外,該解碼器還可以在參與者默念句子時(shí)合成語(yǔ)音。這些發(fā)現(xiàn)都提升了使用神經(jīng)假體技術(shù)還原語(yǔ)音交流能力的臨床可行性。

 

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來(lái)越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來(lái)越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開幕式在貴陽(yáng)舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語(yǔ)權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競(jìng)爭(zhēng)力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營(yíng)商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡(jiǎn)稱"軟通動(dòng)力")與長(zhǎng)三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉