蘋果Siri領銜 智能語音爆紅
2007年,國產(chǎn)手機金立曾推出一種「語音王」的手機,喊一聲「張三」,它會自動撥打張三的電話,這,算智能語音嗎?
別誤會,這只是一種傻瓜式語音,是單個字識別,一碰到連續(xù)的語句就「萎」了。
2011年10月,蘋果發(fā)布了iPhone 4S,自帶一種Siri的語音控制功能,能幫助用戶讀簡訊、查天氣,還能學習新的聲音語調,提供對話式問答,蘋果開啟了智能語音交互時代。
不信?來看一組用戶與Siri的測試對話?!改闶钦l?」「我是Siri?!埂改闶桥??」「不是」「你是男孩嗎?」「我不覺得咱們有時間扯這些」「我喜歡你」「咱倆是不可能的」。
Siri誕生之后爆紅全球,隨后谷歌、百度也推出了類似語音產(chǎn)品。今年hTC、摩托羅拉推出的旗艦機中也帶有此類功能,如小i機器人。
穿戴設備頻出 催生三個技術環(huán)節(jié)
易觀分析師王俊認為,智能語音已經(jīng)誕生新的需求,「一些穿戴設備沒有鍵盤、沒有觸屏,有些連屏幕都沒有?!?/p>
繼索尼、三星發(fā)布智能手表后,10月17日,阿迪達斯也發(fā)布了miCoach SMART RUN,加上此前智器、盛大等國產(chǎn)廠商推出的產(chǎn)品,智能手表產(chǎn)品一時暴增。又在10月,樂視、小米、阿里酷開電視全面預售,三款電視中,樂視、酷開均支持語音識別功能。
智能產(chǎn)品的發(fā)布,對語音識別提出了新的要求。10月19日,記者見到了樂視TV、智器手表語音技術提供者云知聲團隊,其CTO康恒博士表示,智能語音主要包含三個部分:語音識別、語義解析、知識圖譜。
為了演示效果,他用手機語音操控電視:「明天上海天氣」,電視立刻回應「正在為您查詢」,隨后天氣信息便顯示出來。電視先是聽懂康恒說話(語音識別),然后認為他是要查詢上海天氣,最后提供了天氣信息(知識圖譜)。
準確率逐級降低 達80%就算優(yōu)質
「市面上產(chǎn)品語音識別準確率會較高,但是到語音解析會低一點,到知識圖譜會更低一點,最終準確率能達到80%就算是優(yōu)質產(chǎn)品?!雇蹩”硎?,這三個環(huán)節(jié)中,語義解析技術難度最高。
目前的發(fā)展狀況是,語音識別準確率很高,據(jù)康恒介紹,云知聲語音識別準確率為95%。
「要消滅剩下的5%非常困難,需要從每個細節(jié)入手,先把環(huán)境雜訊解決,1%可能解決了;再把口音問題解決一點,1%就上去了;再把聲音采樣庫擴大點,1%又消滅了?!箍岛惚硎?,要達到99%的準確率,云知聲可能需要五年。
康恒還說道,語義解析與知識圖譜是一個很前沿的課題?!副热纭耗阌卸嗌俑^發(fā)』,我能聽明白也能理解,但是不知道答案。計算機也需要一個漫長的學習過程。」晨報記者 王方