(文章來源:百家號)
? ? ? ?現(xiàn)在的手機都是有著手機語音助手,雖說有時候語音助手的識別率并不是很高,但是在某種方面來說,語音助手的確是方便我們許多。而如今不僅僅是手機,汽車上也是慢慢有車內(nèi)語音交互這項功能了。下面就讓我們了解一下汽車上的“語音助手吧”。
2010年之前,車內(nèi)語音交互是“命令式交互”。2010—2017年,“自然語音交互”發(fā)展成主流,未來,語音交互將向“主動對話式交互”發(fā)展,單純的語音識別將變成功能更強的語音助手。國際語音巨頭Nuance大中華區(qū)研究部副總裁吳建雄博士曾經(jīng)用了一個非常形象的類比描繪語音助手的三個層次。
最基本的層次是打字員:他可以將你說的話準確地記錄下來,這樣你就不需要將相同的話向多人重復(fù),助手會把話中布置的任務(wù)交給相應(yīng)的人去做。第二個層次是辦公室文員:文員與打字員的區(qū)別是,文員可以幫助你去完成一個具體的任務(wù)。例如,你想在周末去餐廳吃飯,文員會通過查詢包括餐廳地點及駕車路線、停車場位置及是否有空位、能否訂到位置等信息來完成該任務(wù)。
最高層次是秘書:秘書與文員的區(qū)別是,秘書能夠領(lǐng)會領(lǐng)導(dǎo)的意思,即很多事情領(lǐng)導(dǎo)即便不說,秘書也能心領(lǐng)神會,將其完成。
就這三個層次的實現(xiàn)情況,目前語音識別廠商在打字員層次上的功能已經(jīng)做得非常好了。但對于消費者來說,理想的車載系統(tǒng)要隨時隨地聽懂他在講什么,當(dāng)用戶產(chǎn)生疑問時,車機可以即時提供相關(guān)的解決方案,幫助消費者完成任務(wù),消費者不需要用額外的操作、煩瑣的頁面完成功能。
語音助手涉及的技術(shù)并不簡單是語音識別,還會涉及數(shù)據(jù)的收集、處理,如何將人工智能和機器學(xué)習(xí)運用到機器處理當(dāng)中,如何將這些數(shù)據(jù)銜接,將消費者用戶需要的功能真正傳遞給消費者。目前行業(yè)內(nèi)正在解決的是,如何讓語音助手自動完成一個任務(wù)。其難點在于,有些時候,人并不是把任務(wù)中的所有要求細節(jié)都說出來,需要通過多次人機對話,以提問的方式來逐步獲取缺失的信息。
至于要讓語音助手領(lǐng)會人的意思,還需要積累更多有關(guān)個人習(xí)慣的數(shù)據(jù),通過機器學(xué)習(xí)的方式來集成到語音助手系統(tǒng)內(nèi)。需要將麥克風(fēng)陣列、前端聲學(xué)處理、語音喚醒、端點檢測、語音識別、語義理解、語音合成等技術(shù)在整個交互鏈上進行深度融合的系統(tǒng),并且支持全雙工、多輪交互等新特性。