掌握聲音前處理核心技術(shù),讓語音交互更智能
掃描二維碼
隨時(shí)隨地手機(jī)看文章
(文章來源:數(shù)碼猴子)
隨著AloT物聯(lián)網(wǎng)產(chǎn)業(yè)的縱深發(fā)展,智能語音交互技術(shù)也成為應(yīng)用最普遍的交互技術(shù)。除了最常用的智能手機(jī)外,智能音箱、智能家居、智能機(jī)器人等眾多智能終端設(shè)備的語音應(yīng)用不斷涌現(xiàn),使得智能語音技術(shù)成為智能設(shè)備交互的主要手段。
語音識(shí)別作為人工智能發(fā)展最早、且率先商業(yè)化的技術(shù),近幾年來隨著機(jī)器深度學(xué)習(xí)技術(shù)的突破,識(shí)別準(zhǔn)確率大幅提升、人機(jī)交互的距離也在提升。但是,技術(shù)的推進(jìn)是無止境的,行業(yè)專家表示:想要讓語音識(shí)別更加準(zhǔn)確,需要解決兩方面的問題:一方面,在語音增強(qiáng)、麥克風(fēng)陣列以及說話人分離等多項(xiàng)技術(shù)領(lǐng)域持續(xù)投入,并結(jié)合后端語義,促進(jìn)對(duì)上下文的理解,從而提升識(shí)別效果;另一方面,需要從產(chǎn)品設(shè)計(jì)上進(jìn)行優(yōu)化,比如通過進(jìn)一步交互,使語音識(shí)別變得更為準(zhǔn)確。對(duì)芯片設(shè)計(jì)原廠來講,應(yīng)該研發(fā)出更高端的主控芯片,在聲音前處理方面有更加優(yōu)秀的表現(xiàn),讓拾音的距離和效率都能大幅提升。
炬芯科技作為全國領(lǐng)先的聲音前處理技術(shù)芯片原廠,掌握聲音前處理核心技術(shù)。聽到和聽懂的第一步在于準(zhǔn)確的獲取用戶的聲音(即拾音),否則無論云端的虛擬助手多么智能,也是盲人摸象。小編最近走訪炬芯科技得知,拾音其實(shí)分為遠(yuǎn)場拾音(3 到 5 米)和近場拾音(1 米內(nèi))。
比如,以Siri為代表的智能手機(jī)就是近場拾音,采用的是單麥克風(fēng),可在近距離、低噪聲的情況下拾取符合語音識(shí)別需求的聲音。但是一旦將智能手機(jī)放在有噪聲的較遠(yuǎn)的距離,Siri的識(shí)別率就會(huì)直線下降,單麥克風(fēng)的局限就凸顯了出來。不僅如此,由于噪聲、混響等因素的存在,遠(yuǎn)場拾音還要與遠(yuǎn)講語音識(shí)別算法相匹配,才能真正做到“聽清和聽懂”。
聲音的前處理技術(shù),是聲音沒有進(jìn)入傳輸、沒有存儲(chǔ)之前的處理。聲音前處理目的,就是讓聲音的存儲(chǔ)、傳輸效率更高,識(shí)別率更好。聲音的“聽到”主要依托的是麥克風(fēng)。主要形式為單個(gè)麥克風(fēng)或麥克風(fēng)陣列(多個(gè)麥克風(fēng)按照一定規(guī)則排列,在特定空間對(duì)聲音進(jìn)行獲取和處理)。而基于麥克風(fēng)的語音信號(hào)處理算法則是讓聲音“聽懂”的關(guān)鍵。麥克風(fēng)陣列是語音交互的第一步,簡單來講,麥克風(fēng)陣列是由2個(gè)及以上麥克風(fēng)按一定規(guī)則排列組成,在特定空間對(duì)聲音進(jìn)行獲取和處理的錄音系統(tǒng),在智能音箱落地中有關(guān)鍵作用。麥克風(fēng)+算法,在不同的環(huán)境下排列組合,最終達(dá)到“聽到”和“聽懂”。
? ? ? ?