語音合成芯片就是將完整的語音合成系統(tǒng)固化集成到芯片內(nèi)部,通過簡單的接口接收待合成的文本信息,將文本合成為清晰流暢的語音輸出,完成機器代替人說話傳達信息的過程,語音芯片應(yīng)用簡單,開發(fā)和使用成本低,在車載調(diào)度、氣象預(yù)警、公交報站等領(lǐng)域被廣泛應(yīng)用。
語音合成芯片最大的功能應(yīng)用點在于用戶需要播報一些大量、動態(tài)文本信息時,可以即時、方便的將文本信息內(nèi)容合成為語音輸出,從而解決傳統(tǒng)錄音芯片無法解決的大容量、動態(tài)文本信息播報問題。
目前,市場上語音合成芯片價位從幾十元到幾百元的都有,另外芯片外形、產(chǎn)品封裝形式、調(diào)用接口等紛繁復(fù)雜,讓用戶在選擇語音合成芯片時經(jīng)常陷入迷惑狀態(tài)。那么如何正確分辨、選用一款高性能語音合成芯片?語音合成芯片重點需要考核哪些性能指標?以下參數(shù)將成為用戶重點評估方向:
1. 語音合成效果。
語音合成芯片的應(yīng)用目的是以語言的方式傳達文本信息,機器說話是否標準,人能否聽懂聽舒服自然成為最最重要的衡量指標。語音芯片的朗讀效果主要由兩個重要技術(shù)指標決定:可懂度和自然度??啥染褪侨藗兡軌蚵牰畽C器合成出來的內(nèi)容,是語音合成芯片能否應(yīng)用的基本要求;自然度則是機
2. 能否識別常見的特殊格式文本。
為了滿足不同文本的合成需求,語音合成芯片除了能夠自動識別常見文本內(nèi)容外,在一些特殊格式文本方面,如時間、日期、網(wǎng)站名稱等格式的文本,也要能夠智能判讀?!?2:10:35”讀成“十二點十分三十五秒”,“2008-1-1”讀成“二零零八年一月十三號”,“http://www.abc.com”讀成“h-t-t-p w-w-w點a-b-c點c–o- m”。
3. 能否識別常見的特殊符號、單位符號。
對于一些特殊符號及單位符號等,語音合成芯片也需要能夠正確識別并合成出來,如:“-2℃”讀成“零下2攝氏度”,其他的30%,a&b,¥80,20㎝,75㎏,90㎡等都能夠人們按照閱讀習(xí)慣進行讀出。
4. 能否判讀常見多音字。
多音字作為漢字中常見的發(fā)音重點和難點,是各家語音公司關(guān)注的焦點,特別是中文語音合成芯片,在這方面更需要優(yōu)異的表現(xiàn)。如:音樂,銀行,特長,即將,股市行情,調(diào)整,校正,災(zāi)難,沒收,長三角,西藏,濟南,重慶,成都等等,多音字能否正確判讀直接影響合成信息的可懂度,信息受眾者的理解,所以必須準確朗讀。
5. 能否支持多種漢字編碼支持。
多種漢字編碼支持目前也已成為考核語音合成芯片性能的重點,這點在方便終端用戶使用方面以及支持漢字識別范圍方面均非常重要。目前常用的漢字編碼格式有GB2312, Unicode,GBK,BIG5等。
6. 能否支持數(shù)字的讀法。
生活離不開數(shù)字,數(shù)字串的正確識別合成輸出,在眾多應(yīng)用領(lǐng)域成為普遍性關(guān)注點,合成文本中會經(jīng)常出現(xiàn)類似如:“請撥打12345”、“電話:12345”“熱線:12345” “我的號碼:12345”等內(nèi)容,一款高性能語音合成芯片能夠智能判斷把數(shù)字串讀成數(shù)值、還是號碼。如“12345”會自動按照號碼的讀成“一二三四五”?!?39-11661189”自動按照號碼讀成“幺三九幺幺六六幺幺八九”。而“12345公斤”會自動讀成“一萬二千三百四十五公斤”, “345678個”會讀成“三十四萬五千六百七十八個”等等。
7. 能否支持合成參數(shù)設(shè)置。
參數(shù)合成設(shè)置主要是為了方便使用語音芯片進行二次開發(fā)的用戶來進行設(shè)置、調(diào)試、修正文本合成效果。語音合成芯片應(yīng)該能夠支持多種標記功能,可以按照需要進行標記。使用多種標記進行設(shè)置更為直觀方便、易維護。例如:設(shè)置音量,只要使用合成命令幀發(fā)送[v9],就可把音量設(shè)置9級音量。
8. 用戶使用接口簡單、易用。
以上是從語音合成芯片效果及語音合成芯片內(nèi)核等方面來評估語音合成芯片的性能,其實,在實際選用一款好的語音合成芯片的時候,用戶還需要注意芯片硬件方面的參數(shù),如:是否單芯片,體積大小,能夠大批量貼片焊接生產(chǎn)?以及功耗,工作溫度等等方面。