語音助手竟然有情緒了，說話越來越像人

時間：2019-12-20 11:12:01

關鍵字：語音助手

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀]在電影《Her》里，人工智能語音助手薩曼莎擁有迷人的聲線，溫柔體貼而又幽默風趣，與男主角展開了一段柏拉圖式的愛情。然而在現(xiàn)實中，你可能都不愿意和 Siri 多說兩句話，因為這些語音助手不止‘蠢’，說話

在電影《Her》里，人工智能語音助手薩曼莎擁有迷人的聲線，溫柔體貼而又幽默風趣，與男主角展開了一段柏拉圖式的愛情。

然而在現(xiàn)實中，你可能都不愿意和 Siri 多說兩句話，因為這些語音助手不止‘蠢’，說話語氣還很生硬，一點也不像人，但最近亞馬遜的語音助手 Alexa 已經(jīng)可以用不同語氣來回應用戶的問題了。

今天亞馬遜公布了語音助手 Alexa 的最新進展，Alexa 可以在與用戶交流時以高興、激動、失望、同情等不同情緒的口吻來回應。開發(fā)人員表示，希望這項新技能有助于創(chuàng)造出‘更自然、直觀的語音體驗’。

Alexa 可以在聲音里表達不同情緒，會讓她在很多場景看起來更加貼心。比如當你向 Alexa 詢問一場比賽的結果時，如果你支持的球隊輸了，她就能用失望和安慰的語氣來告訴你。

亞馬遜還在官網(wǎng)發(fā)布了 6 段 Alexa 不同語氣的音頻，分別是失望和高興兩種語氣，而每種語氣根據(jù)情緒程度又分為從弱到強三個層次，不妨來直觀體驗一下。

▲ 失望語氣，播放順序依次為為弱、中、強。

▲高興語氣，播放順序依次為為弱、中、強。

至于效果如何就見仁見智了，The Verge 的編輯就認為 Alexa 失望的語氣聽起來一點也不失望，但最強程度的高興語氣聽起來贏了一盤游戲。

Alexa 除了可以展示不同語氣，還能模仿電臺 DJ 的聲音，以一種新的‘專注于主題（topic-focused）’的聲音來討論音樂。早在今年一月，亞馬遜就讓 Alexa 模仿新聞主播的語氣來播報新聞。

為什么過去很長時間語音助手說話語氣都比較生硬，不能像人一樣說話？要回答這個問題，需要簡單了解語音助手說話的原理。

根據(jù)人工智能公司 Rokid A-Lab 的 Meng Meng 在知乎上的回答，目前主流的語音助手都是基于 TTS（文本轉(zhuǎn)語音，text-to-speech）技術，要表達除抑揚頓挫的語氣就要通過大量音頻數(shù)據(jù)學習，但要以恰當?shù)那榫w表達出文本的含義，往往還要對上下文有所理解。

而這些數(shù)據(jù)學習還得依賴人工來數(shù)據(jù)標注，包括但不限于韻律邊界，重音，邊界調(diào)，情感等描述，而且比起英文，中文的含義又更加復雜，花費的時間很長，科技公司一般會優(yōu)先做通用的語氣，因此語音助手的語氣都非常單調(diào)。

Alexa 之所以能擁有更豐富的情感和語氣，主要依靠一項叫做 NTTS（神經(jīng)文本轉(zhuǎn)語音）的技術，這是基于 TTS 升級的一項技術，通過深度神經(jīng)網(wǎng)絡，讓語音助手知道應該強調(diào)那些音節(jié)，聽起來更加自然。

這種技術不僅能讓語音助手說話更像一個人，而且還能快速掌握不同的語音風格，花費數(shù)小時就能讓 Alexa 像新聞播音員一樣說話，不用像過去一樣在數(shù)據(jù)標注上耗費大量時間。

當語音助手能表達的情感越來越豐富，未來人們或許真的可以和手機里的‘ta’談戀愛了，像《戀與制作人》這類戀愛養(yǎng)成游戲，可能就更加令人欲罷不能了。