對(duì)于語(yǔ)音識(shí)別技術(shù)你了解多少呢
掃描二維碼
隨時(shí)隨地手機(jī)看文章
語(yǔ)音識(shí)別技術(shù)(Automatic Speech RecogniTIon,ASR)的功能是將人類(lèi)語(yǔ)音中的詞匯內(nèi)容以按鍵、二進(jìn)制編碼或字符序列轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入信息。長(zhǎng)久以來(lái),人類(lèi)夢(mèng)寐以求的事情是與機(jī)器進(jìn)行語(yǔ)音交流,讓機(jī)器明白自己在說(shuō)什么。作為一種伴隨信息革命誕生的新興交叉技術(shù),語(yǔ)音識(shí)別旨在引導(dǎo)機(jī)器通過(guò)識(shí)別和理解過(guò)程,把語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令。
20世紀(jì)50年代,人類(lèi)開(kāi)始了對(duì)語(yǔ)音識(shí)別系統(tǒng)的研究,倫敦學(xué)院(College of London)的Denes率先將 語(yǔ)法概率應(yīng)用于語(yǔ)音識(shí)別,隨后卡內(nèi)基·梅隆大學(xué)的李開(kāi)復(fù)博士率先提出了第一個(gè)基于隱馬爾可夫模型(Hidden Markov Mod-el)的大詞匯量語(yǔ)音識(shí)別系統(tǒng)Sphinx,這一系統(tǒng)的發(fā)明幫助他獲得了1988年“美國(guó)商業(yè)周刊最重要發(fā)明獎(jiǎng)”,也奠定了后來(lái)語(yǔ)音識(shí)別技術(shù)的研究框架。
進(jìn)入21世紀(jì)以來(lái),全球范圍內(nèi)語(yǔ)音識(shí)別技術(shù)的發(fā)展風(fēng)生水起、方興未艾,逐漸從實(shí)驗(yàn)室邁向大眾消費(fèi)市場(chǎng),在手機(jī)、家電、醫(yī)療、工業(yè)、通信、汽車(chē)電子、家庭服務(wù)等諸多領(lǐng)域應(yīng)用廣泛。在未來(lái)的智能網(wǎng)聯(lián)汽車(chē)應(yīng)用場(chǎng)景中,很多研究者和創(chuàng)業(yè)公司都希望將語(yǔ)音識(shí)別技術(shù)應(yīng)用進(jìn)來(lái),他們會(huì)經(jīng)常描繪一個(gè)場(chǎng)景:用戶只要對(duì)著手機(jī)說(shuō)話,汽車(chē)就會(huì)自動(dòng)從車(chē)庫(kù)開(kāi)到你的面前來(lái)接你上班。
語(yǔ)音識(shí)別領(lǐng)域的創(chuàng)業(yè)項(xiàng)目非常容易受到投資機(jī)構(gòu)的青睞,不論是在一級(jí)股權(quán)投資市場(chǎng)還是在二級(jí)證券市場(chǎng),科大訊飛、思必馳、云知聲、得意音通等公司先后完成了多輪融資,它們代表了國(guó)內(nèi)目前在智能語(yǔ)音技術(shù)研究、軟件及芯片產(chǎn)品開(kāi)發(fā)、聲紋識(shí)別和語(yǔ)音信息服務(wù)以及電子政務(wù)等領(lǐng)域的最高水平,并且在教育、醫(yī)療、家電和金融等領(lǐng)域獲得越來(lái)越多的應(yīng)用機(jī)會(huì)。由于汽車(chē)車(chē)廂內(nèi)處于噪聲環(huán)境,因此對(duì)語(yǔ)音識(shí)別的降噪要求會(huì)更高,這也是目前語(yǔ)音識(shí)別技術(shù)還需進(jìn)一步提高的地方。