科大迅飛和其語音技術(shù)及車載導(dǎo)航解決方案
所謂語音技術(shù),就是讓計(jì)算機(jī)等智能機(jī)器具備“會(huì)說能聽”能力的技術(shù),其中兩項(xiàng)最關(guān)鍵的技術(shù)是語音合成TTS(Text to Speech)和語音識(shí)別SR(Speech Recognition)。讓機(jī)器說話,用的是語音合成技術(shù);讓機(jī)器聽懂人說話,用的是語音識(shí)別技術(shù)。張哲先生表示,語音技術(shù)的重要價(jià)值在于提高了人機(jī)交互的效率,使人與機(jī)器的溝通變得如同人與人溝通一樣簡單。因而語音市場被認(rèn)為前景極其廣闊。這也正是包括Google、Microsoft等國際巨頭投入巨資進(jìn)行基于語音技術(shù)及相關(guān)產(chǎn)品研究的一個(gè)重要原因。專家也預(yù)測,未來5年,如果語音技術(shù)取得進(jìn)一步突破,基于此項(xiàng)技術(shù)的平臺(tái)廠商、硬件廠商、軟件廠商及設(shè)計(jì)公司能夠形成良好的合作,中國語音產(chǎn)業(yè)鏈?zhǔn)袌鋈萘繉⒊^1000億元。
科大迅飛的語音技術(shù)和車載導(dǎo)航解決方案
AirSound4.0是科大迅飛開發(fā)的輕量級(jí)語音合成軟件,尺寸小、資源占用性低、效率高,主要應(yīng)用于嵌入式領(lǐng)域的語音合成軟件模塊,適用于不同行業(yè)的語音播報(bào)和應(yīng)用需求。
AirSound4.0可配置特性:
資源尺寸可配置
—最小系統(tǒng)尺寸500K
運(yùn)算效率可配置
—最低可到20MHz的32處理器
極低的內(nèi)存需求
—Kernel最小僅需32K RAM空間
主要優(yōu)勢:
-支持多種開發(fā)平臺(tái)
-支持所有漢字編碼輸入
-增強(qiáng)型語音合成功能
-豐富的文本控制標(biāo)識(shí)
-強(qiáng)大的語音調(diào)節(jié)功能
-支持英文合成及多語種
-支持多種音效處理
-豐富多樣的個(gè)性化音色
-全面完善的維護(hù)工具
-支持快速發(fā)音人定制服務(wù)
圖1 AirSound基本框架
圖2 TTS系統(tǒng)框架
其嵌入式語音識(shí)別產(chǎn)品AiTalk2.0是高性能的嵌入式非特定人中英文命令詞語音識(shí)別引擎。
主要功能:
-非特定人識(shí)別
-支持中英文識(shí)別
-支持動(dòng)態(tài)命令增刪
技術(shù)特點(diǎn):
-優(yōu)秀的平臺(tái)普適性
-精確文本分析能力
-快速移植能力
-強(qiáng)大領(lǐng)域定制能力
圖3 識(shí)別系統(tǒng)架構(gòu)圖
車載導(dǎo)航行業(yè)解決方案
科大迅飛車載導(dǎo)航解決方案分析了車載導(dǎo)航產(chǎn)品中原有的功能與語音合成技術(shù)和語音識(shí)別技術(shù)的各種可能結(jié)合點(diǎn),總結(jié)出相應(yīng)一些語音功能結(jié)合點(diǎn),設(shè)計(jì)原則和功能結(jié)合點(diǎn)圖表簡列如下:
設(shè)計(jì)原則
•在與原有車載導(dǎo)航功能相結(jié)合,增加語音功能時(shí),盡量保持車載導(dǎo)航產(chǎn)品上原有的用戶界面不變,減少開發(fā)工作量。采用附加應(yīng)用層界面的方式添加語音合成和語音識(shí)別功能。
•對(duì)原有車載導(dǎo)航產(chǎn)品的硬件設(shè)計(jì)和模具做盡量少的修改要求,盡量不增加硬件成本。
•所有用戶語音應(yīng)用的內(nèi)容都可以進(jìn)行設(shè)置,讓用戶選擇是打開還是關(guān)閉。
科大迅飛與飛思卡爾強(qiáng)強(qiáng)聯(lián)手,謀求共贏
從未來語音市場發(fā)展角度來看,雖然前景極為廣闊,但整個(gè)市場目前還處于剛起步階段,整個(gè)產(chǎn)業(yè)鏈上的廠商聯(lián)手打造良好的生態(tài)環(huán)境,是整個(gè)語音市場獲得發(fā)展的重要因素也是企業(yè)自身發(fā)展的關(guān)鍵。從語音技術(shù)和產(chǎn)品發(fā)展的角度來看,更多地體現(xiàn)以人為本,能帶給消費(fèi)者完美人機(jī)交互體驗(yàn)的產(chǎn)品將是未來語音技術(shù)和產(chǎn)品設(shè)計(jì)的趨勢。目前科大迅飛正在與各個(gè)行業(yè)的領(lǐng)先者進(jìn)行磋商合作,通過建立戰(zhàn)略性合作伙伴關(guān)系促進(jìn)各自發(fā)展。
科大迅飛所看重的嵌入式語音技術(shù)產(chǎn)品中車載導(dǎo)航儀近年增速迅猛,2007年出貨量達(dá)410萬部,比2006年增長了68.2%。而在汽車電子領(lǐng)域,飛思卡爾作為全球性的領(lǐng)導(dǎo)廠商,其領(lǐng)先地位毋庸質(zhì)疑。作為全球最大的汽車電子MCU的提供商,飛思卡爾擁有業(yè)界最完整的從8位S08到高端32位的Power Architecture MCU,涵蓋了整車廠商對(duì)電子產(chǎn)品的所有需求。飛思卡爾i.MX35系列多媒體處理器的推出,使汽車OEM實(shí)現(xiàn)了導(dǎo)航功能和車內(nèi)無線電的免提控制,將過去由豪華汽車所獨(dú)享的免提信息娛樂控制功能擴(kuò)展到所有汽車中。張哲表示,他們十分看重飛思卡爾在整個(gè)汽車電子行業(yè)的影響力,同時(shí)也十分看重飛思卡爾在應(yīng)用型解決方案上的創(chuàng)新能力。
科大迅飛嵌入式產(chǎn)品部市場總監(jiān)張哲先生稱,飛思卡爾的芯片設(shè)計(jì)致力于滿足終端用戶的完美體驗(yàn)需求,并將相應(yīng)功能在其設(shè)計(jì)規(guī)格里完美體現(xiàn)。如飛思卡爾i.MX35處理器可以讓駕駛員在駕駛過程中更安全、更輕松地控制娛樂和導(dǎo)航設(shè)備,只需一個(gè)簡單的語音命令,駕駛員就可以從便攜式媒體播放器音樂集中選擇歌曲,或隨時(shí)隨地獲取方向信息。科大迅飛作為我國最大的中文語音技術(shù)提供商,擁有領(lǐng)先的中文語音核心技術(shù)和中文語音資源優(yōu)勢。
因此張哲先生認(rèn)為,科大迅飛與飛思卡爾的強(qiáng)強(qiáng)聯(lián)手,將產(chǎn)生1+1>2的效益。對(duì)于科大迅飛自身而言,將有助于他們開發(fā)設(shè)計(jì)出更具創(chuàng)新型應(yīng)用的產(chǎn)品,飛思卡爾的資源優(yōu)勢有利于科大迅飛更好地與合作伙伴開展合作,其產(chǎn)品更易為合作伙伴和消費(fèi)者認(rèn)可、接受,并使其繼續(xù)保持市場領(lǐng)先性。對(duì)飛思卡爾而言,如果能夠在產(chǎn)品設(shè)計(jì)中將科大迅飛的相關(guān)中文語音技術(shù)元素考慮進(jìn)去,可使其提供差異化的產(chǎn)品和解決方案,并有可能為中國市場帶來更加智能的車載導(dǎo)航設(shè)備。當(dāng)然這將為終端用戶帶來更加人性化的產(chǎn)品和更愉悅的使用體驗(yàn)。因此科大迅飛對(duì)與飛思卡爾的合作前景充滿信心,并認(rèn)為這種合作將不僅只限于在車載領(lǐng)域,在飛思卡爾同樣具有優(yōu)勢的多媒體、自動(dòng)化領(lǐng)域都將會(huì)展開合作。
積極開發(fā)創(chuàng)新型應(yīng)用產(chǎn)品,是下一步發(fā)展關(guān)鍵
如何開發(fā)出更加符合市場需求、更能滿足消費(fèi)者人機(jī)交互體驗(yàn)的創(chuàng)新型語音技術(shù)產(chǎn)品,是科大迅飛未來發(fā)展所面臨的重大挑戰(zhàn)之一。張哲表示,科大迅飛目前已形成了兩種方式,在外部主要依靠和各行業(yè)的合作伙伴密切溝通和合作,在內(nèi)部則是在研發(fā)部門形成了一種機(jī)制,即把未來語音技術(shù)研發(fā)的方向與市場需求緊密結(jié)合。目前在實(shí)驗(yàn)室進(jìn)行的兩項(xiàng)前瞻性語音合成技術(shù)包括情感式語音合成和音色轉(zhuǎn)換。最初的語音合成產(chǎn)品是力求實(shí)現(xiàn)語音的自然度和飽和度,而能夠帶有人類感情色彩的產(chǎn)品將更符合以人為本的需求。音色轉(zhuǎn)換技術(shù)則能夠提供極具個(gè)性化特點(diǎn)的產(chǎn)品。
作為國內(nèi)一家軟件企業(yè),張哲先生也表示了對(duì)中國軟件企業(yè)未來發(fā)展的思考,他認(rèn)為,擁有自主知識(shí)產(chǎn)權(quán)的核心技術(shù)是中國軟件企業(yè)長久發(fā)展的保證,就科大迅飛自身而言,在與國際巨頭進(jìn)行面對(duì)面競爭時(shí),中文語音核心技術(shù)使其在市場中處于不敗的地位。他強(qiáng)調(diào),作為企業(yè)自身,應(yīng)該把更多精力放在提高技術(shù)創(chuàng)新上。從外部而言,他希望能夠建立更完善的知識(shí)產(chǎn)權(quán)保護(hù)體系,為中國軟件企業(yè)更好地發(fā)展提供良好的外部環(huán)境。
關(guān)于安徽科大迅飛信息科技股份有限公司
安徽科大迅飛信息科技股份有限公司成立于1999年,是我國最大的中文語音技術(shù)提供商,長期致力于智能語音技術(shù)研究,在中文語音識(shí)別、語音合成、口語評(píng)測等多項(xiàng)技術(shù)上擁有國際領(lǐng)先的成果。同時(shí)也是我國掌握核心技術(shù)并擁有自主知識(shí)產(chǎn)權(quán)的軟件企業(yè)之一。目前已推出從電信、金融等行業(yè)到企業(yè)和家庭用戶,從PC到手機(jī)到MP3/MP4/PMP和玩具,滿足不同應(yīng)用環(huán)境的多種語音技術(shù)產(chǎn)品。