當前位置:首頁 > 消費電子 > 消費電子
[導(dǎo)讀]語音識別相信大家并不陌生,近些年來語音識別技術(shù)的應(yīng)用層出不窮,同時也更加智能。

語音識別相信大家并不陌生,近些年來語音識別技術(shù)的應(yīng)用層出不窮,同時也更加智能。從開始我們簡單的詢問“你是誰”,到現(xiàn)在可以與我們進行多輪對話,理解我們的意思甚至是心情,語音識別已經(jīng)實現(xiàn)了長足的發(fā)展??赡艽蠖鄶?shù)人覺得語音識別是近些年才出現(xiàn)的技術(shù),其實不然,下面讓我們一起從語音技術(shù)的歷史展開來看。

Part 01 語音識別近70年發(fā)展史

1952年,貝爾實驗室發(fā)明了自動數(shù)字識別機,科學家對智能語音有了模糊的概念,可能這時科學家們就已經(jīng)在暢想我們?nèi)缃駥崿F(xiàn)的這一切。

1964年,IBM在世界博覽會上推出了數(shù)字語音識別系統(tǒng),語音技術(shù)也自此走出了實驗室,為更多人知曉,貝爾實驗室的夢想也變成了更多人的夢想。

1980年,聲龍推出了第一款語音識別產(chǎn)品Dragon Dictate,這是第一款面向消費者的語音識別產(chǎn)品。雖然夢想第一次照進了現(xiàn)實,但其高達9000美元的售價,很大程度增加了智能語音技術(shù)的普及難度。

1997年,IBM推出它的第一個語音識別產(chǎn)品Via Voice。在中國市場,IBM適配了四川、上海、廣東等地方方言,Via Voice也真正的為更多消費者接觸、使用到。

2011年,蘋果首次在iphone4s上加入智能語音助手Siri。至此,智能語音與手機深度綁定,進入廣大消費者的日常生活。隨后國內(nèi)各大手機廠商也先后跟進,為手機消費者提供了五彩繽紛的語音識別功能。

此后,語音識別技術(shù)的應(yīng)用,并沒有局限于手機,而是擴展到了各種場景。從各種智能家居,如智能機器人、智能電視、智能加濕器等,到現(xiàn)在智能汽車,各大傳統(tǒng)廠商以及造車新勢力紛紛積極布局智能座艙??梢娭悄苷Z音技術(shù)已經(jīng)在我們的衣食住行各個方面得到了廣泛應(yīng)用。

Part 02 語音識別技術(shù)簡介

語音識別技術(shù),也被稱為自動語音識別(Automatic Speech Recognition,ASR),其目標是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計算機可讀的輸入。語音識別技術(shù)屬于人工智能方向的一個重要分支,涉及許多學科,如信號處理、計算機科學、語言學、聲學、生理學、心理學等,是人機自然交互技術(shù)中的關(guān)鍵環(huán)節(jié)。

Part 03 語音識別基本流程

ASR:指自動語音識別技術(shù)(Automatic Speech Recognition),是一種將人的語音轉(zhuǎn)換為文本的技術(shù)。

NLU:自然語言理解(Natural Language Understanding, NLU)是所有支持機器理解文本內(nèi)容的方法模型或任務(wù)的總稱。

NLG:自然語言生成(Natural Language Generation,NLG)是一種通過計算機在特定交互目標下生成語言文本的自動化過程,其主要目的是能夠自動化構(gòu)建高質(zhì)量的生成人類能夠理解的語言文本。

上圖展示了一個語音識別的基本流程,用戶發(fā)出指令后,mic收集音頻,完成聲音到波形圖的轉(zhuǎn)換,通過波形圖與人類發(fā)音的波形圖做對比,可以識別出說的具體音節(jié),通過音節(jié),組合成詞、句子,再結(jié)合大數(shù)據(jù)分析出說的最匹配的話,然后NLU模塊開始工作,分析出這句話的意圖(intent)、域(Domain)等各種信息。分析出意圖后開始對話管理DM(Dialog Manager),通過后臺數(shù)據(jù)查詢應(yīng)該給用戶什么反饋。然后交給NLG模塊,通過查出來的信息,生成自然語言,最后通過TTS模塊,將文字轉(zhuǎn)回成波形圖并播放聲音。

上面的流程涉及到的學科、知識都比較多,由于篇幅原因,不一一展開描述,在這里我節(jié)選出ASR來進行相對詳細些的學習。

Part 04 ASR實現(xiàn)原理簡單剖析

我們首先從ASR聲音源來看,當一位用戶發(fā)出指令,比如說:我愛你。這時麥克風會收集音頻到存儲設(shè)備。我們通過音頻處理軟件(如Audacity)打開后可以發(fā)現(xiàn)音頻是一段波形圖。

但是這段波形圖并沒有什么直觀的有意義的信息,它的高低只代表了聲音的大小,橫軸也僅僅是時間。語音識別本身是基于大數(shù)據(jù)的分析技術(shù),分析的基礎(chǔ)是數(shù)據(jù)的準確,聲音大小和發(fā)音的時間長短很難有什么統(tǒng)計學的意義,所以此時我們需要對音頻進行處理。(這段波形圖是四句我愛你的波形圖)。

處理的一種常用方法是傅里葉變換,通過傅里葉變換,我們可以將時間維度的波形圖,轉(zhuǎn)換成頻率維度的波形圖。

語音識別技術(shù)的發(fā)展歷史可以追溯到20世紀50年代初期。在那個時候,人們開始嘗試將語音轉(zhuǎn)化為文本,以便于計算機的處理。隨著計算機技術(shù)的發(fā)展,語音識別技術(shù)也逐漸得到了改進和完善。本文將詳細介紹語音識別技術(shù)的發(fā)展歷史。

20世紀50年代初期,貝爾實驗室的研究人員開始嘗試將語音轉(zhuǎn)化為文本。他們使用了一種叫做“Audrey”的設(shè)備,通過對話框架來實現(xiàn)語音識別。這種設(shè)備仍然十分原始,只能夠識別一些簡單的單詞和數(shù)字。

20世紀60年代,語音識別技術(shù)得到了進一步的發(fā)展。美國國防部資助了一項名為“Harpy”的研究計劃,旨在開發(fā)一種可以識別語音的系統(tǒng)。Harpy系統(tǒng)可以識別1,011個單詞,但是其準確率仍然較低。

20世紀70年代,語音識別技術(shù)得到了一些重大的進展。IBM公司開發(fā)了一種名為“Shoebox”的語音識別系統(tǒng),可以識別1,000個單詞。這種系統(tǒng)使用了一些新的技術(shù),如動態(tài)時間規(guī)整(DTW)等。

美國知名投資機構(gòu)Mangrove Capital Partners在《2019年語音技術(shù)報告》中,給語音下了一個宏大的定義——歡迎下一代的顛覆者。

可如果把時間倒退10年,大部分人還是會把“語音交互”定義為一場豪賭,都知道贏面比較大,卻遲遲不敢下注,因為概念的落地還沒有一個明確的期限,當正確的路徑被走通之前,永遠都存在不確定性。

不過在此前的80年里,人類對語音技術(shù)的希望從未破滅,就像是在迷宮中找尋出口一般,一遍又一遍的試錯,最終找到了正確的路徑。

01 漫長的孩提時代“小度小度,明天天氣怎么樣?”“小度小度,我想聽周杰倫的歌” “小度小度,我想給爸爸打電話”,諸如這樣的指令每天有幾億次發(fā)生,哪怕是牙牙學語的孩子也可以和智能音箱進行流暢的對話。

但在50年前,就職于貝爾實驗室的約翰·皮爾斯卻在一封公開信中為語音識別下了“死亡診斷書”:就像是把水轉(zhuǎn)化為汽油、從海里提取金子、徹底治療癌癥,讓機器識別語音幾乎是不可能實現(xiàn)的事情。

彼時距離首個能夠處理合成語音的機器出現(xiàn)已經(jīng)過去30年的時間,距離發(fā)明出能夠聽懂從0到9語音數(shù)字的機器也過去了17個年頭。這兩項創(chuàng)造性的發(fā)明均出自貝爾實驗室,但語音識別技術(shù)的緩慢進展,幾乎消磨掉了所有人的耐心。

在20世紀的大部分時間里,語音識別技術(shù)就像是一場不知方向的長征,時間刻度被拉長到了10年之久:

上世紀60年代,時間規(guī)整機制、動態(tài)時間規(guī)整和音素動態(tài)跟蹤三個關(guān)鍵技術(shù)奠定了語音識別發(fā)展的基礎(chǔ);

上世紀70年代,語音識別進入了快速發(fā)展的階段,模式識別思想、動態(tài)規(guī)劃算法、線性預(yù)測編碼等開始應(yīng)用;

上世紀80年代,語音識別開始從孤立詞識別系統(tǒng)向大詞匯量連續(xù)語音識別系統(tǒng)發(fā)展,基于GMM-HMM的框架成為語音識別系統(tǒng)的主導(dǎo)框架;

上世紀90年代,出現(xiàn)了很多產(chǎn)品化的語音識別系統(tǒng),比如IBM的Via-vioce系統(tǒng)、微軟的Whisper系統(tǒng)、英國劍橋大學的HTK系統(tǒng);

但在進入21世紀后,語音識別系統(tǒng)的錯誤率依然很高,再次陷到漫長的瓶頸期。直到2006年Hiton提出用深度置信網(wǎng)絡(luò)初始化神經(jīng)網(wǎng)絡(luò),使得訓(xùn)練深層的神經(jīng)網(wǎng)絡(luò)變得容易,從而掀起了深度學習的浪潮。

只是在2009年之前70年左右的漫長歲月里,中國在語音識別技術(shù)上大多處于邊緣角色,1958年中國科學院聲學所利用電子管電路識別10個元音,1973年中國科學院聲學所開始了計算機語音識別,然后是863計劃開始開始組織語音識別技術(shù)的研究,直到百度、科大訊飛等中國企業(yè)的崛起。

02 躍進的少年時代2010年注定是語音識別的轉(zhuǎn)折點。

前一年Hinton和D.Mohamed將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于語音的聲學建模,在小詞匯量連續(xù)語音識別數(shù)據(jù)庫TIMIT上獲得成功。

從2010年開始,微軟的俞棟、鄧力等學者首先嘗試將深度學習技術(shù)引入到語音識別領(lǐng)域,并確立了三個維度的標準:

數(shù)據(jù)量的多少,取決于搜索量、使用量的規(guī)模;

算法的優(yōu)劣,頂級人才扮演者至關(guān)重要的角色;

計算力的水平,關(guān)鍵在于FPGA等硬件的發(fā)展。

在這三個維度的比拼中,誰擁有數(shù)據(jù)上的優(yōu)勢,誰聚集了頂級的人才,誰掌握著強大的計算能力,多半會成為這場較量中的優(yōu)勝方。于是在語音識別的“少年時代”,終于開始了躍進式的發(fā)展,刷新紀錄的時間間隔被壓縮到幾年到幾個月。

2016年語音識別的準確率達到90%,但在這年晚些時候,微軟公開表示語音識別系統(tǒng)的詞錯率達到了5.9%,等同于人類速記同樣一段對話的水平,時任百度首席科學家吳恩達發(fā)聲稱百度在2015年末即達到了同等水平;2017年6月,Google表示語音識別的準確率達到95%,而早在10個月前的時候,李彥宏就在百度世界大會上宣布了百度語音識別準確率達到97%的消息。

一個有些“奇怪”的現(xiàn)象,為何在語音識別領(lǐng)域缺少前期積累的中國,可以在極短的時間內(nèi)實現(xiàn)從無到有,甚至有后發(fā)先至的趨勢?可以找到的原因有二:

首先,傳統(tǒng)專利池被挑戰(zhàn),競爭回歸技術(shù)。

語音識別進入深度學習時代,并沒有背負太多的專利包袱,中美玩家們有機會站在了同一起跑線上。

比如2013年百度的語音識別技術(shù)還主要基于mel-bank的子帶CNN模型;2014年就獨立發(fā)展出了Sequence Discriminative Training(區(qū)分度模型);2015年初推出基于LSTM –HMM的語音識別,年底發(fā)展出基于LSTM-CTC的端對端語音識別系統(tǒng);2016年和2017年將Deep CNN模型和 LSTM、CTC結(jié)合起來,2018年推出Deep Peak 2模型,2019年又發(fā)布了流式多級的截斷注意力模型……

而在不久前結(jié)束的百度AI開發(fā)者大會上,百度還推出了針對遠場語音交互的鴻鵠芯片,可以實現(xiàn)遠場陣列信號實時處理,高精度超低誤報語音喚醒以及離線語音識別。

其次,語音識別進入到生態(tài)化、產(chǎn)業(yè)化的時代。

在Google發(fā)布了語音開放API后,對Nuance產(chǎn)生了致命的打擊,不僅僅是Google在產(chǎn)品和技術(shù)上的優(yōu)勢,也來自于Google強大的人工智能技術(shù)生態(tài),例如以TensorFlow為代表的深度學習引擎。

聲明:該篇文章為本站原創(chuàng),未經(jīng)授權(quán)不予轉(zhuǎn)載,侵權(quán)必究。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風險,如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉