5g是怎樣對音頻賦能的

時間：2020-05-25 20:42:01

關(guān)鍵字： 5G 音頻 5G網(wǎng)絡 AI

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀] “5G來了，你最盼望的應用是什么？” 如果拿這個問題去詢問大部分手機用戶，相信收獲的答案會是高清直播、VR、云游戲等等。應該近乎沒人會說，“5G來了，會讓我聽音樂更爽”。確實，

“5G來了，你最盼望的應用是什么？”

如果拿這個問題去詢問大部分手機用戶，相信收獲的答案會是高清直播、VR、云游戲等等。應該近乎沒人會說，“5G來了，會讓我聽音樂更爽”。

確實，5G提高帶寬降低時延，基本指向于網(wǎng)絡能夠支撐更好畫質(zhì)，于是無論視頻、游戲還是AR、VR，都把5G牢牢和視覺困在了一起。

那么5G網(wǎng)絡的升級，真的就跟聽覺一點關(guān)系都沒有嗎？換言之，今天智能手機以及個人硬件里，關(guān)于“聽”的那一部分是不是已經(jīng)走到了盡頭？

其實未必，5G雖然與視覺緊密相關(guān)，但它能給聲音帶來的東西也不算少數(shù)。今天我們從幾個方向展示一下，5G對音頻的賦能到底是怎么發(fā)生的。

高音質(zhì)與低時延：5G特性下的聲音

首先能夠給聲音帶來改變的，依舊是5G的基礎特性：大帶寬與低時延。

沿著這兩條軌跡，我們會發(fā)現(xiàn)現(xiàn)有聲音傳輸還是有較大空間來進行優(yōu)化。在4G網(wǎng)絡環(huán)境下，我們習慣了隨時在線收聽音樂、音頻節(jié)目，甚至觀看直播，但其基本是建立在音質(zhì)經(jīng)過較大幅度壓縮基礎上的。而當網(wǎng)絡傳輸速率達到10Gbps左右的時候，高清音質(zhì)也可以通過網(wǎng)絡快速傳輸，保證實時化共享。另一方面，5G網(wǎng)絡的低時延特性也給聲音帶來了新的可能，比如多聲源同步問題可以得到比較妥善的解決。

把這些5G特性落到應用場景里，我們可以比較簡單地看到，三個方面的5G+聲音能力將被打開。隨之而來是一些新玩法可能被挖掘。

一、高清、高品質(zhì)音樂的在線化。

我們知道，一些高質(zhì)量音樂在手機段很難復現(xiàn)，一方面是由于揚聲環(huán)境有限，另一方面也是因為網(wǎng)絡環(huán)境限制，導致質(zhì)量較大的音頻文件很難傳輸。5G直接帶來的改變，是高品質(zhì)音樂和音頻節(jié)目具有更高的實現(xiàn)性。這個特性可能打開的應用，不僅于音樂一項。很多對于音質(zhì)細節(jié)具有高要求的音頻內(nèi)容，比如環(huán)境音、催眠音效、白噪音等等也可以獲得更好的輸出效果。比如用聲音來觸發(fā)大腦舒適感的ASMR，一直以來其圈內(nèi)都強調(diào)專用收音設備的等級。而高等級收音同時也需要大帶寬網(wǎng)絡的輔助，才能最終讓用戶體驗到最終效果，5G到來或許是類似領域的一個契機。

二、讓聲音在5G中互動。

5G的另一個特性是低時延，這意味著不同音源的聲音可以更好組成統(tǒng)一體。這一點應用在在線音頻中，可以很好解決幾個終端同步收音合奏的效果。今天的直播界，也經(jīng)常會搞一些對唱和聲之類的玩法，但質(zhì)量很難跟現(xiàn)場音樂相提并論。尤其樂器合奏，近乎于是無法在4G網(wǎng)絡環(huán)境下達成很好效果的。

5G網(wǎng)絡的特性，可以讓異地音樂排練變?yōu)榭赡?。而對商業(yè)形態(tài)的最直接影響在于，5G網(wǎng)絡或許可以讓不同地域的歌手樂手完成高品質(zhì)的合奏玩法，換言之就是網(wǎng)上音樂會成為可能。在今天直播與音頻節(jié)目盛行的環(huán)境下，類似玩法應該會有比較好的表現(xiàn)。

三、更好的聲畫同步效果。

音頻當然不止于自身，更多情況下它需要與視頻合作。5G網(wǎng)絡的低時延特性，一個可能性在于能夠升級VR、游戲等環(huán)境下的聲畫同步體驗，讓聲音更好與視覺配合。這個體驗最直接的商業(yè)想象力在于互動視頻，更復雜可交互的音效，是互動視頻體驗升級的核心路徑之一。

聲音漂移：IoT環(huán)境下無處不在的聲音

更多時候，5G不能被看作一個單獨的技術(shù)路徑，而是必須與更多技術(shù)突破相結(jié)合，提供網(wǎng)絡方面的助力。對于聲音來說，這樣的“5G+”賦能也同樣存在。

比如我們知道，大量生活場景里的IoT設備，都趨向于取消按鍵和觸屏，而是用智能語音交互作為主要控制入口。

這也意味著，大量家庭生活與車載場景里的IoT設備，都將攜帶發(fā)聲設備。那么在5G環(huán)境下，這些設備將獲得更好的聯(lián)接效果與硬件虛擬化能力。聲音也就可以在這些設備之間更好傳輸。

或許不久的未來，我們可以期待這樣的場景：客廳中用電視追劇的你，要起身去運動，然后去廚房搞點吃的。在執(zhí)行這個非常符合減肥需求的行動同時，你并不想停止追劇，至少也要聽個聲音。那么你可以把電視的聲音扔到運動耳機上，運動之后再把耳機的聲音扔到廚房的音箱，或者干脆扔到冰箱、燃氣灶上……

IoT體系下的聲音無縫體驗，并不僅僅意味著用戶可以指揮聲音到處游走，同時也意味著設備對用戶聲音的識別、理解與交互能力。每個設備和用戶說過什么話，學習到了什么東西，都需要體系化共享與再學習，這都需要建立在強大網(wǎng)絡環(huán)境上。5G和wifi6，目前看來是這一能力的網(wǎng)絡基礎基石。

IoT必須擁有更多能力，而聲音正是其中之一。

算法即聲音：AI+5G賦能音頻

或許關(guān)注AI領域的朋友有這樣一個感覺，新聞里的AI語音能力越來越神奇，什么聲音克隆、情緒識別、機器對話，都非常強力。但落到自己的手機和音箱上，總感覺有點傻傻的？

這里面有一個核心問題，就是算力和網(wǎng)絡環(huán)境不達標，龐大的深度學習模型沒法在現(xiàn)有條件下跑在終端設備上。雖然類似問題出現(xiàn)在機器視覺領域更多，但隨著這兩年語音模型飛速發(fā)展，算力和網(wǎng)絡能力不足，優(yōu)秀算法不能落到用戶終端的問題，也開始出現(xiàn)在了語音領域。

所以5G給音頻的賦能，另一個想象力在于跟AI結(jié)合。

未來，我們聽見的機器聲音和其他人傳遞過來的音頻，很有可能已經(jīng)經(jīng)過了大量算法“美化”。聲音界更具欺詐性的“喬碧蘿殿下”可謂指日可待。

相對需要5G網(wǎng)絡加持的語音算法應用，包括機器音的實時美化和情緒修飾、聲音克隆、多模態(tài)語義理解等等。另一方面，在5G網(wǎng)絡下，AI也將有條件更好理解用戶的聲音，并從中產(chǎn)生更多玩法和商業(yè)化價值。

5G即將到來，升級網(wǎng)絡環(huán)境和眾多新網(wǎng)絡特性，對于各產(chǎn)業(yè)都將帶來不同的升級效果。對于內(nèi)容創(chuàng)作者來說，5G是新的畫板。無論你的創(chuàng)作載體是聲音、視頻、游戲，或者想象中的其他形式，5G都是一個新的機遇。