谷歌擬使用機器學(xué)習(xí)技術(shù)改善Duo通話服務(wù)的音質(zhì)

時間：2020-04-28 08:57:01

關(guān)鍵字：機器學(xué)習(xí) DUO 音頻 TE

手機看文章

掃描二維碼
隨時隨地手機看文章

[導(dǎo)讀] 外媒報道稱，為保障 Duo 通話服務(wù)在不穩(wěn)定連接狀態(tài)下的音頻質(zhì)量，谷歌推出了一項名叫 WaveNetEQ 的音質(zhì)改善方案。據(jù)悉，其基于谷歌 DeepMind 部門的相關(guān)技術(shù)，旨在利用人工加入的噪

外媒報道稱，為保障 Duo 通話服務(wù)在不穩(wěn)定連接狀態(tài)下的音頻質(zhì)量，谷歌推出了一項名叫 WaveNetEQ 的音質(zhì)改善方案。據(jù)悉，其基于谷歌 DeepMind 部門的相關(guān)技術(shù)，旨在利用人工加入的噪音來抑制音頻的抖動。這種噪音聽起來就像人類在說話，但其實是通過機器學(xué)習(xí)技術(shù)產(chǎn)生的。

如果你曾經(jīng)撥打過網(wǎng)絡(luò)電話，那肯定多多少少地經(jīng)歷過因連接不穩(wěn)定而導(dǎo)致的音頻抖動。

當(dāng)通話期間的部分音頻數(shù)據(jù)包在通信過程中丟失、延遲過高、或順序錯誤時，就有可能發(fā)生這樣的情況。

谷歌表示，99% 的 Duo 通話都會出現(xiàn)數(shù)據(jù)包丟失，其中 20% 的丟失率超過 3%、另有 10% 的丟失率超過 8% 。

每款通信應(yīng)用都有采取某種方式來處理丟包問題，但谷歌表示，傳統(tǒng)的丟包掩飾（PLC）過程，或?qū)е赂哌_ 60ms 的空缺。

相比之下，基于 DeepMind 神經(jīng)網(wǎng)絡(luò)技術(shù)的 WaveNetEQ 解決方案，已經(jīng)在 48 種不同語言的 100 多個揚聲器數(shù)據(jù)上展開了訓(xùn)練。

為增加說服力，谷歌還放出了一些 WaveNetEQ 與常見的 PLC 技術(shù)的比較音頻。當(dāng)然，新技術(shù)能夠轉(zhuǎn)換多少音頻，還是有一定的局限的。

谷歌表示，WaveNetEQ 旨在替換較短的音頻間隔，而不是真人通話期間漏掉的整個單次。因此在 120ms 之后，這套系統(tǒng)會淡出并產(chǎn)生靜音。

通過評估，谷歌確保了 WaveNetEQ 不會引入任何新運算的重音，此外所有處理都能夠在用戶的設(shè)備端進行，畢竟 Google Duo 默認就開啟了端到端加密。

一旦網(wǎng)絡(luò)連接變得順暢，真人的音頻會立即恢復(fù)，WaveNetEQ 將無縫地淡出介入。目前該技術(shù)已在 Pixel 4 智能機上進行測試，后續(xù)該公司還將向更多設(shè)備推廣。
? ? ? ?