當前位置:首頁 > 消費電子 > 便攜設(shè)備
[導讀] Siri 是一個使用語音合成技術(shù)與人類進行交流的個人助手。從 iOS 10 開始,蘋果已經(jīng)在 Siri 的語音中用到了深度學習,iOS 11 中的 Siri 依然延續(xù)這一技術(shù)。使用深度學習使得

Siri 是一個使用語音合成技術(shù)與人類進行交流的個人助手。從 iOS 10 開始,蘋果已經(jīng)在 Siri 的語音中用到了深度學習,iOS 11 中的 Siri 依然延續(xù)這一技術(shù)。使用深度學習使得 Siri 的語音變的更自然、流暢,更人性化。 

介紹

語音合成,也就是人類聲音的人工產(chǎn)品,被廣泛應(yīng)用于從助手到游戲、娛樂等各種領(lǐng)域。最近,配合語音識別,語音合成已經(jīng)成為了 Siri 這樣的語音助手不可或缺的一部分。

如今,業(yè)內(nèi)主要使用兩種語音合成技術(shù):單元選擇 [1] 和參數(shù)合成 [2]。單元選擇語音合成技術(shù)在擁有足夠高質(zhì)量錄音時能夠合成最高質(zhì)量的語音,也因此成為商業(yè)產(chǎn)品中最常用的語音合成技術(shù)。另外,參數(shù)合成能夠提供高度可理解的、流暢的語音,但整體質(zhì)量略低。因此,在語料庫較小、低占用的情況下,通常使用參數(shù)合成技術(shù)?,F(xiàn)代的單元選擇系統(tǒng)結(jié)合這兩種技術(shù)的優(yōu)勢,因此被稱為混合系統(tǒng)?;旌蠁卧x擇方法類似于傳統(tǒng)的單元選擇技術(shù),但其中使用了參數(shù)合成技術(shù)來預(yù)測選擇的單元。

近期,深度學習對語音領(lǐng)域沖擊巨大,極大的超越了傳統(tǒng)的技術(shù),例如隱馬爾可夫模型。參數(shù)合成技術(shù)也從深度學習技術(shù)中有所收益。深度學習也使得一種全新的語音合成技術(shù)成為了可能,也就是直接音波建模技術(shù)(例如 WaveNet)。該技術(shù)極有潛力,既能提供單元選擇技術(shù)的高質(zhì)量,又能提供參數(shù)選擇技術(shù)的靈活性。然而,這種技術(shù)計算成本極高,對產(chǎn)品而言還不成熟。為了讓所有平臺的 Siri 語音提供最佳質(zhì)量,蘋果邁出了這一步,在設(shè)備中的混合單元選擇系統(tǒng)上使用了深度學習。

蘋果深度語音合成技術(shù)工作原理

為個人助手建立高質(zhì)量的文本轉(zhuǎn)語音(TTS)系統(tǒng)并非簡單的任務(wù)。首先,第一個階段是找到專業(yè)的播音人才,她/他的聲音既要悅耳、易于理解,又要符合 Siri 的個性。為了覆蓋各種人類語音,我們首先在錄音棚中記錄了 10-20 小時的語音。錄制的腳本從音頻簿到導航指導,從提示答案到笑話,不一而足。通常來說,這種天然的語音不能像錄制的那樣使用,因為不可能錄制助手會說的每一句話。因此,單元選擇 TTS 系統(tǒng)把記錄的語音切片成基礎(chǔ)元件,比如半音素,然后根據(jù)輸入文本把它們重新結(jié)合,創(chuàng)造全新的語音。在實踐中,選擇合適的音素并組合起來并非易事,因為每個音素的聲學特征由相鄰的音素、語音的韻律所決定,這通常使得語音單元之間不相容。圖 1 展示了如何使用被分割為半音素的數(shù)據(jù)庫合成語音。

圖 1:展示了使用半音素進行單元選擇語音合成。合成的發(fā)音是「Unit selecTIon synthesis」,圖的頂部是使用半音素的標音法。相應(yīng)的合成波形與光譜圖在圖下部分。豎線劃分的語音段是來自數(shù)據(jù)集的持續(xù)語音段,數(shù)據(jù)集可能包含一個或多個半音素。

單元選擇 TTS 技術(shù)的基本難題是找到一系列單元(例如,半音素),既要滿足輸入文本、預(yù)測目標音韻,又要能夠在沒有明顯錯誤的情況下組合在一起。傳統(tǒng)方式上,該流程包含兩部分:前端和后端(見圖 2),盡管現(xiàn)代系統(tǒng)中其界限可能會很模糊。前端的目的是基于原始文本輸入提供語音轉(zhuǎn)錄和音韻信息。這包括將包含數(shù)字、縮寫等在內(nèi)的原始文本規(guī)范化寫成單詞,并向每個單詞分配語音轉(zhuǎn)錄,解析來自文本的句法、音節(jié)、單詞、重音、分句。要注意,前端高度依賴語言。

圖 2:文本轉(zhuǎn)語音合成流程。

使用由文本分析模塊創(chuàng)建的符號語言學表征,音韻生成模塊預(yù)測音調(diào)、音長等聲學特征的值。這些值被用于選擇合適的單元。單元選擇的任務(wù)極其復雜,所以現(xiàn)代的合成器使用機器學習方法學習文本與語音之間的一致性,然后根據(jù)未知文本的特征值預(yù)測其語音特征值。這一模塊必須要在合成器的訓練階段使用大量的文本和語音數(shù)據(jù)進行學習。音韻模型輸入的是數(shù)值語言學特征,例如音素特性、音素語境、音節(jié)、詞、短語級別的位置特征轉(zhuǎn)換為適當?shù)臄?shù)值形式。音韻模型的輸出由語音的數(shù)值聲學特征組成,例如頻譜、基頻、音素時長。在合成階段,訓練的統(tǒng)計模型用于把輸入文本特征映射到語音特征,然后用來指導單元選擇后端流程,該流程中聲調(diào)與音長的合適度極其重要。

與前端不同,后端通常是語言獨立的。它包括單元選擇和波形拼接部分。當系統(tǒng)接受訓練時,使用強制對齊將錄制的語音和腳本對齊(使用語音識別聲學模型)以使錄制的語音數(shù)據(jù)被分割成單獨的語音段。然后使用語音段創(chuàng)建單元數(shù)據(jù)庫。使用重要的信息,如每個單元的語言環(huán)境(linguisTIc context)和聲學特征,將該數(shù)據(jù)庫進一步增強。我們將該數(shù)據(jù)叫作單元索引(unit index)。使用構(gòu)建好的單元數(shù)據(jù)庫和指導選擇過程的預(yù)測音韻特征,即可在語音空間內(nèi)執(zhí)行 Viterbi 搜索,以找到單元合成的最佳路徑(見圖 3)。

圖 3. 使用 Viterbi 搜索在柵格中尋找單元合成最佳路徑。圖上方是合成的目標半音素,下面的每個框?qū)?yīng)一個單獨的單元。Viterbi 搜索找到的最佳路徑為連接被選中單元的線。

該選擇基于兩個標準:(1)單元必須遵循目標音韻;(2)在任何可能的情況下,單元應(yīng)該在單元邊界不產(chǎn)生聽覺故障的情況下完成拼接。這兩個標準分別叫作目標成本和拼接成本。目標成本是已預(yù)測的目標聲學特征和從每個單元抽取出的聲學特征(存儲在單元索引中)的區(qū)別,而拼接成本是后項單元之間的聲學區(qū)別(見圖 4)??偝杀景凑杖缦鹿接嬎悖?/p>

其中 u_n 代表第 n 個單元,N 代表單元的數(shù)量,w_t 和 w_c 分別代表目標成本和拼接成本的權(quán)重。確定單元的最優(yōu)順序之后,每個單元波形被拼接,以創(chuàng)建連續(xù)的合成語音。

圖 4. 基于目標成本和拼接成本的單元選擇方法。

Siri 新聲音背后的技術(shù)

因為隱馬爾可夫模型對聲學參數(shù)的分布直接建模,所以該模型通常用于對目標預(yù)測 [5][6] 的統(tǒng)計建模,因此我們可以利用如 KL 散度那樣的函數(shù)非常簡單地計算目標成本。然而,基于深度學習的方法通常在參數(shù)化的語音合成中更加出色,因此我們也希望深度學習的優(yōu)勢能轉(zhuǎn)換到混合單元選擇合成(hybrid unit selecTIon synthesis)中。

Siri 的 TTS 系統(tǒng)的目標是訓練一個基于深度學習的統(tǒng)一模型,該模型能自動并準確地預(yù)測數(shù)據(jù)庫中單元的目標成本和拼接成本(concatenaTIon costs)。因此該方法不使用隱馬爾可夫模型,而是使用深度混合密度模型(deep mixture density network /MDN)[7][8] 來預(yù)測特征值的分布。MDS 結(jié)合了常規(guī)的深度神經(jīng)網(wǎng)絡(luò)和高斯混合模型(GMM)。

常規(guī) DNN 是一種在輸入層和輸出層之間有多個隱藏層的人工神經(jīng)網(wǎng)絡(luò)。因此這樣的深度神經(jīng)網(wǎng)絡(luò)才能對輸入特征與輸出特征之間的復雜和非線性關(guān)系建模。通常深度神經(jīng)網(wǎng)絡(luò)使用反向傳播算法通過誤差的傳播而更新整個 DNN 的權(quán)重。相比之下,GMM 在使用一系列高斯分布給定輸入數(shù)據(jù)的情況下,再對輸出數(shù)據(jù)的分布進行建模。GMM 通常使用期望最大化(expectation maximization /EM)算法執(zhí)行訓練。MDN 結(jié)合了 DNN 和 GMM 模型的優(yōu)點,即通過 DNN 對輸入和輸出之間的復雜關(guān)系進行建模,但是卻提高概率分布作為輸出(如下圖 5)。

圖 5:用于對聲音特征的均值和方差建模的深度混合密度網(wǎng)絡(luò),輸出的聲學均值和方差可用于引導單元選擇合成

對于 Siri 來說,我們使用了基于 MDN 統(tǒng)一的目標和拼接模型,該模型能預(yù)測語音目標特征(頻譜、音高和音長)和拼接成本分布,并引導單元的搜索。因為 MDN 的分布是一種高斯概率表分布形式,所以我們能使用似然度函數(shù)作為目標和拼接成本的損失函數(shù):

其中 x_i 是第 i 個目標特征,μ_i 為預(yù)測均值,而 (σ_i)^2 為預(yù)測方差。在實際的成本計算中,使用負對數(shù)似然函數(shù)和移除常數(shù)項將變得更加方便,經(jīng)過以上處理將簡化為以下簡單的損失函數(shù):

其中 w_i 為特征權(quán)重。

當我們考慮自然語言時,這種方法的優(yōu)勢將變得非常明顯。像元音那樣,有時候語音特征(如話音素)相當穩(wěn)定,演變也非常緩慢。而有時候又如有聲語音和無聲語音的轉(zhuǎn)換那樣變化非常迅速??紤]到這種變化性,模型需要能夠根據(jù)這種變化性對參數(shù)作出調(diào)整,深度 MDN 的做法是在模型中使用嵌入方差(variances embedded)。因為預(yù)測的方差是依賴于上下文的(context-dependent),所以我們將它們視為成本的自動上下文依賴權(quán)重。這對提升合成質(zhì)量是極為重要的,因為我們希望在當前上下文下計算目標成本和拼接成本:

其中 w_t 和 w_c 分別為目標和拼接成本權(quán)重。在最后的公式中,目標成本旨在確保合成語音(語調(diào)和音長)中再現(xiàn)音韻。而拼接成本確保了流暢的音韻和平滑的拼接。

在使用深度 MDN 對單元的總成本進行評分后,我們執(zhí)行了一種傳統(tǒng)的維特比搜索(Viterbi search)以尋找單元的最佳路徑。然后,我們使用波形相似重疊相加算法(waveform similarity overlap-add/WSOLA)找出最佳拼接時刻,因此生成平滑且連續(xù)合成語音。

本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風險,如企業(yè)系統(tǒng)復雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉