語音識別系統(tǒng)主要包含哪四大部分
在這篇文章中,小編將為大家?guī)?a href="/tags/語音識別" target="_blank">語音識別系統(tǒng)的相關報道。如果你對本文即將要講解的內容存在一定興趣,不妨繼續(xù)往下閱讀哦。
一、語音識別系統(tǒng)主要包含哪四大部分
1.特征提取和信號處理
在科學和工程中,遇到的大多數(shù)信號都是連續(xù)的模擬信號,而計算機只能處理離散的信號,因此,必須對這些連續(xù)的模擬信號進行轉化,通過采樣和量化,轉化成數(shù)字信號。
2.聲學模型(Acoustic Model)
聲學模型是語音識別系統(tǒng)中最為重要的部分之一,主流系統(tǒng)多采用隱馬爾科夫模型進行建模。 隱馬爾可夫模型的概念是一個離散時域有限狀態(tài)自動機,隱馬爾可夫模型HMM是指這一馬爾可夫模型的內部狀態(tài)外界不可見,外界只能看到各個時刻的輸出值。
對語音識別系統(tǒng),輸出值通常就是從各個幀計算而得的聲學特征。用HMM刻畫語音信號需作出兩個假設,一是內部狀態(tài)的轉移只與上一狀態(tài)有關,另一是輸出值只與當前狀態(tài)(或當前的狀態(tài)轉移)有關,這兩個假設大大降低了模型的復雜度。HMM的打分、解碼和訓練相應的算法是前向算法、Viterbi算法和前向后向算法。
3.語言模型(Language Model)
語言模型用來表示詞序列出現(xiàn)的可能性,用文本數(shù)據(jù)訓練而成,是語音識別系統(tǒng)重要的組成部分
基于規(guī)則的語言模型,其數(shù)據(jù)的主要來源是人類社會中語言學家掌握的語言學知識和領域知識,以及特定語法規(guī)則的約束下,受限領域內的句子。
統(tǒng)計語言模型,通過對大量文本語料進行處理,獲取給定詞序列的概率分布,客觀描述隱含的規(guī)律,適合于處理大規(guī)模真實文本。
4.解碼搜索
解碼器是將語音中的信息解碼識別并輸出的一個關鍵結構。針對輸入的語音信號,根據(jù)己經(jīng)訓練好的聲學模型、語言模型及字典建立一個識別網(wǎng)絡, 使用搜索算法在該網(wǎng)絡中尋找最佳的一條路徑 ,輸出最大概率的情況下的文字。
二、語音識別系統(tǒng)有哪些功能特點
對比語音識別技術的兩個發(fā)展方向,由于基于不同的運算平臺,因此具有不同的特點。大詞匯量連續(xù)語音識別系統(tǒng)一般都是基于PC機平臺,而語音識別專用芯片的中心運算處理器則只是一片低功耗、低價位的智能芯片,與一臺甚至多臺PC機相比起來,其運算速度,存儲容量都非常有限,因而這些由專用芯片實現(xiàn)的語音識別系統(tǒng)有如下幾個特點:
1、多為中、小詞匯量的語音識別系統(tǒng),即只能夠識別10~100詞條。只有近一兩年來,才有連續(xù)數(shù)碼或連續(xù)字母語音識別專用芯片實現(xiàn)。
2、一般僅限于特定人語音識別的實現(xiàn),即需要讓使用者對所識別的詞條先進行學習或訓練這一類識別功能對語種、方言和詞條沒有限制。有的芯片也能夠實現(xiàn)非特定人語音識別,即預先將所要識別的語句碼本訓練好而裝入芯片,用戶使用時不需要再進行學習而直接應用。但這一類識別功能只適用于規(guī)定的語種和方言,而且所識別的語句只限于預先已訓練好的語句。
3、由此芯片組成一個完整的語音識別系統(tǒng)。因此,除了語音識別功能以外,為了有一個好的人機界面和識別正確與否的驗證,該系統(tǒng)還必須具備語音提示(語音合成)及語音回放(語音編解碼記錄)功能。
4、多為實時系統(tǒng),即當用戶說完待識別的詞條后,系統(tǒng)立即完成識別功能并有所回應,這就對電路的運算速度有較高的要求。
5、除了要求有盡可能好的識別性能外,還要求體積盡可能小、可靠性高、耗電省、價錢低等特點。
以上便是小編此次想要和大家共同分享的有關語音識別系統(tǒng)的內容,如果你對本文內容感到滿意,不妨持續(xù)關注我們網(wǎng)站喲。最后,十分感謝大家的閱讀,have a nice day!