語音助手竟然有情緒了,說話越來越像人
在電影《Her》里,人工智能語音助手薩曼莎擁有迷人的聲線,溫柔體貼而又幽默風趣,與男主角展開了一段柏拉圖式的愛情。
然而在現(xiàn)實中,你可能都不愿意和 Siri 多說兩句話,因為這些語音助手不止‘蠢’,說話語氣還很生硬,一點也不像人,但最近亞馬遜的語音助手 Alexa 已經(jīng)可以用不同語氣來回應用戶的問題了。
今天亞馬遜公布了語音助手 Alexa 的最新進展,Alexa 可以在與用戶交流時以高興、激動、失望、同情等不同情緒的口吻來回應。開發(fā)人員表示,希望這項新技能有助于創(chuàng)造出‘更自然、直觀的語音體驗’。
Alexa 可以在聲音里表達不同情緒,會讓她在很多場景看起來更加貼心。比如當你向 Alexa 詢問一場比賽的結果時,如果你支持的球隊輸了,她就能用失望和安慰的語氣來告訴你。
亞馬遜還在官網(wǎng)發(fā)布了 6 段 Alexa 不同語氣的音頻,分別是失望和高興兩種語氣,而每種語氣根據(jù)情緒程度又分為從弱到強三個層次,不妨來直觀體驗一下。
▲ 失望語氣,播放順序依次為為弱、中、強。
▲高興語氣,播放順序依次為為弱、中、強。
至于效果如何就見仁見智了,The Verge 的編輯就認為 Alexa 失望的語氣聽起來一點也不失望,但最強程度的高興語氣聽起來贏了一盤游戲。
Alexa 除了可以展示不同語氣,還能模仿電臺 DJ 的聲音,以一種新的‘專注于主題(topic-focused)’的聲音來討論音樂。早在今年一月,亞馬遜就讓 Alexa 模仿新聞主播的語氣來播報新聞。
為什么過去很長時間語音助手說話語氣都比較生硬,不能像人一樣說話?要回答這個問題,需要簡單了解語音助手說話的原理。
根據(jù)人工智能公司 Rokid A-Lab 的 Meng Meng 在知乎上的回答,目前主流的語音助手都是基于 TTS(文本轉(zhuǎn)語音,text-to-speech)技術,要表達除抑揚頓挫的語氣就要通過大量音頻數(shù)據(jù)學習,但要以恰當?shù)那榫w表達出文本的含義,往往還要對上下文有所理解。
而這些數(shù)據(jù)學習還得依賴人工來數(shù)據(jù)標注,包括但不限于韻律邊界,重音,邊界調(diào),情感等描述,而且比起英文,中文的含義又更加復雜,花費的時間很長,科技公司一般會優(yōu)先做通用的語氣,因此語音助手的語氣都非常單調(diào)。
Alexa 之所以能擁有更豐富的情感和語氣,主要依靠一項叫做 NTTS(神經(jīng)文本轉(zhuǎn)語音)的技術,這是基于 TTS 升級的一項技術,通過深度神經(jīng)網(wǎng)絡,讓語音助手知道應該強調(diào)那些音節(jié),聽起來更加自然。
這種技術不僅能讓語音助手說話更像一個人,而且還能快速掌握不同的語音風格,花費數(shù)小時就能讓 Alexa 像新聞播音員一樣說話,不用像過去一樣在數(shù)據(jù)標注上耗費大量時間。
當語音助手能表達的情感越來越豐富,未來人們或許真的可以和手機里的‘ta’談戀愛了,像《戀與制作人》這類戀愛養(yǎng)成游戲,可能就更加令人欲罷不能了。