VR里的聲音有多重要？這5個(gè)點(diǎn)重塑你對(duì)全景聲的認(rèn)知

時(shí)間：2020-08-17 08:09:02

關(guān)鍵字： 3d vr

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀] 　　本文作者是時(shí)代拓靈CEO孫學(xué)京，整理自孫學(xué)京在ICEVE（北京國際先進(jìn)影像大會(huì)暨展覽會(huì)）WorkShop演講。　　為什么說全景聲是VR的標(biāo)配，我不知道在座的各位對(duì)全景聲、

　　本文作者是時(shí)代拓靈CEO孫學(xué)京，整理自孫學(xué)京在ICEVE（北京國際先進(jìn)影像大會(huì)暨展覽會(huì)）WorkShop演講。

　　為什么說全景聲是VR的標(biāo)配，我不知道在座的各位對(duì)全景聲、VR的了解程度有多少，很長時(shí)間以來大家關(guān)注VR可能都是視頻，4K，或者是相機(jī)的質(zhì)量，聲音確實(shí)比較少提及到，我相信大家在電影學(xué)院之前也做過配音工作，聲音確實(shí)在影視里也是很重要，但是我們?yōu)槭裁丛诮裉欤绕湓赩R里再來強(qiáng)調(diào)一下呢，接下來就給大家講一講我們對(duì)它的認(rèn)知。

　　什么是全景聲

　　全景聲這個(gè)名詞大家也許不是很陌生，因?yàn)檫@幾年已經(jīng)有出現(xiàn)過，包括杜比提出的杜比全景聲，所以我就通俗地講一下它和傳統(tǒng)音頻的區(qū)別。首先全景聲是一個(gè)全方位的展現(xiàn)形式，區(qū)別于立體聲和環(huán)繞聲的在一個(gè)水平面上，全景聲肯定是需要一個(gè)全方位360&TImes;360的展現(xiàn)形式，然后還有很重要的一點(diǎn)就是我們認(rèn)為它需要支持交互，某種意義上和游戲，或者全景電影里非常密切相關(guān)的就是它不是靜止的，引用了很多交互的概念。

　　全景聲與3D音效的區(qū)別

　　可能大家會(huì)問全景聲和3D音效是什么區(qū)別，我們認(rèn)為全景聲是遠(yuǎn)遠(yuǎn)大于3D音效，3D音效可以認(rèn)為是全景聲的一個(gè)子集，但是確實(shí)兩者在核心技術(shù)上又有非常多相通的地方。

　　從聲音的發(fā)展歷程我們簡單回顧一下，傳統(tǒng)是單聲道，尤其在通訊行業(yè)，很多單聲道就幾乎是使用了數(shù)十年。立體聲大部分是用來聽音樂，這個(gè)也是有它一定的道理，因?yàn)槲覀冊诼牳璧臅r(shí)候人的這種平衡感還是很重要的，所以在影視、商業(yè)上是5.1/7.1，主要以杜比為首，它在商業(yè)上獲得了巨大的成功，其實(shí)在它出現(xiàn)的時(shí)候也是有一些不同的這種制式之爭吧，那最后5.1/7.1作為商業(yè)上一個(gè)能夠滿足大眾需求的，而推廣起來又比傳統(tǒng)的，其實(shí)就是我們今天說的Ambisonics前身的那種技術(shù)更加容易普及，所以它在商業(yè)上其實(shí)是統(tǒng)治了過去應(yīng)該超過10年。

　　那現(xiàn)在5.1/7.1以后，大家甚至也聽到過13.1、22.1，這些都是有些影院在做的，包括日本NHK他們有這種更多揚(yáng)聲器軌道的技術(shù)，那最新的這種Channel-based技術(shù)之后，大家在音頻領(lǐng)域關(guān)注的是什么技術(shù)呢？

　　目前國際上從標(biāo)準(zhǔn)來講，就是以杜比為首，它在推杜比全景聲Dolby Atmos，然后另外一個(gè)陣營是以Fraunhofer、Qualcomm為代表，他們是代表MPEG H這個(gè)陣營，也是提出新的制式來替代這種傳統(tǒng)的多軌AAC的編解碼，其實(shí)幾年前他們推這些標(biāo)準(zhǔn)的時(shí)候，那會(huì)兒VR還沒有特別火，但是它的核心技術(shù)已經(jīng)開始引入Object Audio這么一個(gè)概念，然后在MPEG H的話，它會(huì)引入高階的Ambisonic概念，但是那時(shí)候更多面向影院行業(yè)，并沒有和VR直接掛鉤，所以在交互方面它并沒有考慮特別多。

　　VR視頻里的聲音需要有方位性

　　我剛才提到的交互特性也就是說我們在看VR內(nèi)容的時(shí)候，其實(shí)是追求一種非常好的臨場感、現(xiàn)場感，那所謂體驗(yàn)更好的真實(shí)性，是和人的交互必不可少的，如果只是靜止在那兒被動(dòng)體驗(yàn)導(dǎo)演給你呈現(xiàn)的內(nèi)容，這種沉浸感是不夠的。

　　大家都體驗(yàn)過VR頭盔，你至少轉(zhuǎn)頭會(huì)看到不同的全景內(nèi)容，聲音也隨之變化。在更進(jìn)階一點(diǎn)其實(shí)就類似于游戲里邊，你從一個(gè)房間進(jìn)入到另外一個(gè)房間或者你在一個(gè)房間里，你湊近這個(gè)房間的角落，或者遠(yuǎn)離這個(gè)角落，你聽到的聲音其實(shí)都是應(yīng)該不一樣的，這和視覺的變化其實(shí)是一樣的，就是因?yàn)檫@些交互特性的引入，導(dǎo)致了傳統(tǒng)和5.1這種混音是不能滿足交互需求的。

　　我們還需要VR全景聲的技術(shù)，作為一個(gè)工程的系統(tǒng)，它要支持耳機(jī)播放，因?yàn)樵赩R里面目前是以耳機(jī)為主，但是揚(yáng)聲器在內(nèi)也同樣需要支持，因?yàn)樗鼤?huì)有另外一個(gè)應(yīng)用場景，這些支持跨平臺(tái)，支持不同的VR設(shè)備也是我們作為一個(gè)商業(yè)公司，來做一套商業(yè)系統(tǒng)所必須要具備的特性。

　　一些VR相關(guān)的錄音技術(shù)

　　我們一般來講整個(gè)全景聲系統(tǒng)實(shí)際上是由采集、制作、到播放渲染這幾個(gè)比較關(guān)鍵的環(huán)節(jié)。如果大家對(duì)視頻這塊比較了解其實(shí)也是同樣的類比，你也需要從視頻的采集、剪輯到最后播放渲染都是同樣類似的幾個(gè)比較關(guān)鍵的模塊。

　　雙耳錄音

　　首先來講一些錄音技術(shù)。錄音有幾個(gè)比較主流的技術(shù)，傳統(tǒng)的就是立體聲錄音，比如像XY錄音，或者是AB錄音，它一般是兩個(gè)麥克風(fēng)，位置可近可遠(yuǎn)，它會(huì)收集到一個(gè)平面上的空間聲。那雙耳錄音實(shí)際上是立體聲里一個(gè)比較特殊的地方，它是用一個(gè)人工頭來模擬人的頭部特性，然后在人頭左右兩邊的人工耳這塊插入一些全向的麥克風(fēng)，所以它會(huì)對(duì)三維聲場有一個(gè)非常逼真的模擬。播放這種聲音基本上是通過耳機(jī)來播放，不需要額外的編解碼或者格式的轉(zhuǎn)換。

　　HRTF

　　HRTF是我們在做3D音效或者是在聲音模擬里面最關(guān)鍵、最核心的技術(shù)之一，它底層的數(shù)學(xué)不算特別復(fù)雜，是用一些有線的FIR濾波器，模擬從頭部到聲源之間信息傳輸?shù)男盘?hào)Signal path，然后用一些簡單的數(shù)字來模擬一下。

　　目前我們常用的方法是我提前用人頭在一個(gè)消音室里從各個(gè)方位去采集非常多的人頭部傳遞函數(shù)，比如說我在一米處放一個(gè)聲源在人頭的前面，零度角我放掃頻，或者是白噪聲以及粉噪聲，我可以重復(fù)很多次，在不同的角度，不同的高度我都會(huì)采集，然后把這些聲音記錄下來，經(jīng)過一些數(shù)學(xué)分析，以數(shù)字的形式儲(chǔ)存下來。如果我將來需要去模擬3D音效的時(shí)候再把這些數(shù)學(xué)函數(shù)帶進(jìn)去，當(dāng)然也是在做的特別好的前提下。這里邊其實(shí)需要非常多的數(shù)學(xué)，非常多的工程上的考慮，比如說我們頭部的大小等等，其實(shí)這是一個(gè)很嚴(yán)重的問題。

　　Omni-Binaural

　　現(xiàn)在跟VR比較直接相關(guān)的我們叫它Omni-Binaural?？磮D就能看出來，它是傳統(tǒng)人頭錄音的一個(gè)升級(jí)版，它是4個(gè)方向都有正反的兩個(gè)人工耳。其實(shí)這個(gè)設(shè)備是國外3Dio公司生產(chǎn)的，它省去了人的面部來模擬人頭，實(shí)際上是一個(gè)簡化版本。當(dāng)然我也看過有國外團(tuán)隊(duì)做的是一個(gè)有一點(diǎn)恐怖的模型，實(shí)際上是每一個(gè)面都有一個(gè)人臉，可以設(shè)想一下，確實(shí)有一點(diǎn)恐怖。但是它會(huì)比只用人耳的效果好一些。

　　如果我們用這種設(shè)備去錄音的話，實(shí)際上是可以看到每面兩個(gè)麥克風(fēng)，所以你最后得到的是8軌聲音，所以是模擬四面四個(gè)方向，0度、90度、180度、270度，如果你想要更高的精度，那其實(shí)可以增加更多的面，現(xiàn)在基本上比較簡單的做法就是用四面來模擬，就是人站在不同的方位我都能聽到一個(gè)特別好的人頭錄音。

　　它的優(yōu)勢就是解碼比較簡單，然后我如果想聽45度的時(shí)候怎么辦？它實(shí)際上所做的辦法就是把0度的時(shí)候錄下來的聲音和90度的時(shí)候錄下來的聲音做一個(gè)中間的數(shù)學(xué)上的差值，所以其實(shí)是非常簡單的。但是隨之而來的效果就會(huì)打折扣，它會(huì)在45度的時(shí)候你聽到聲音的方位感就會(huì)略微模糊一些，這也是它的缺陷。

　　Ambisonic

　　目前VR興起以后Ambisonic技術(shù)則變成了一個(gè)重要的技術(shù)，所以利用它錄音的話，在傳統(tǒng)上是以這種比較昂貴的麥克風(fēng)為主，比如說像TSL的Soundfield，它基本上把麥克風(fēng)的擺放位置是一個(gè)叫正四面體，Tetrahedron的這么一個(gè)麥克風(fēng)擺放，你可以想象它其實(shí)就是每一個(gè)麥克風(fēng)朝向一個(gè)方向，有朝上的、朝左、朝右、朝水平面四個(gè)方向，它可以把360度在一個(gè)點(diǎn)上聽到的聲音收錄下來。

　　所以這幾款產(chǎn)品TSL、TetraMic就是已經(jīng)存在很長時(shí)間了，然后森海的Ambeo是今年剛出來，這幾款都是質(zhì)量非常高，只是麥克風(fēng)一個(gè)陣列，你如果需要用這個(gè)設(shè)備去采集的話，也是還要額外去用這種錄音設(shè)備，我們一般叫它軌機(jī)，可以支持多路的麥克風(fēng)收錄。

　　我們可以看到，通常在一階Ambisonic用WXYZ來表示，這里邊用Zoom錄出來的話，它的Z軸是為零，只有WXY。第二款設(shè)備是我們公司時(shí)代拓靈推出的產(chǎn)品Twirling720，這款產(chǎn)品是四個(gè)channel，四個(gè)軌道都是有分量的，因此是更加完整意義上的一階Ambisonic的錄音設(shè)備。

　　剛才簡單介紹了我們在做全景聲錄音尤其在VR里主要用的兩個(gè)設(shè)備，一個(gè)就是Omni-Binaural，另外就是基于Ambisonic技術(shù)的錄音設(shè)備，當(dāng)然還有傳統(tǒng)的一些錄音，比如5.1環(huán)繞聲，以及剛才提到的XY，或者AB這種立體聲錄音。

　　當(dāng)你采音完了以后，所涉及到全景聲的傳輸與存儲(chǔ)，目前這一塊我個(gè)人認(rèn)為是業(yè)界沒有解決的最大的一個(gè)問題所在。一旦牽扯到傳輸與存儲(chǔ)，它要求很強(qiáng)的格式上的統(tǒng)一。但是從另一個(gè)方面來看，只要談及到格式，就涉及特別多的商業(yè)利益，各家統(tǒng)一起來是非常困難的。

　　Ambisonic這個(gè)技術(shù)也是在VR出現(xiàn)以后可能用得會(huì)越來越多，這也是Google或者Facebook他們在兼容的一個(gè)格式，因?yàn)檫@個(gè)格式其實(shí)沒有什么專利的限制，所以是比較開放的。大家如果都遵守一個(gè)Ambisonic格式那么我就可以保證我的視頻在YouTube或Facebook上都可以播。但是這個(gè)格式其實(shí)某種意義上就像剛才說的Object Audio或者是Channel-based Audio，我個(gè)人稱它為表現(xiàn)形式，而并不是一個(gè)最終的編解碼，因?yàn)闊o論是哪種技術(shù)，底層的編解碼都可以用MP3或者是AAC來編碼，這個(gè)具體的編碼形式其實(shí)是另外更底層的一個(gè)技術(shù)。

　　全景聲如何播放？

　　在這里提到了Ambisonic在VR領(lǐng)域的用處，比較核心的用處我們叫它中間格式，也就是無論什么采集格式或者用分軌做出來的格式，其實(shí)可以給它打包成Ambisonic的格式，就是剛才說的WXYZ，然后最后再給它轉(zhuǎn)成5.1或者立體聲，或者是支持旋轉(zhuǎn)。這樣大家會(huì)有一個(gè)握手的這么一個(gè)機(jī)制，有一個(gè)interface，這樣就比較好辦，如果進(jìn)來就是杜比全景聲格式，其實(shí)很多品牌是播放不了的。

　　但YouTube和Facebook都可以播這種支持spaTIal 360、spaTIal audio的內(nèi)容，像YouTube它就是基于Ambisonic為主，然后Google最近推出的網(wǎng)頁端的播放器叫Google Omnitone，也是基于Ambisonic這種解碼，所以如果你用的內(nèi)容是剛才提到的Ambisonic采音設(shè)備，像Twirling720，那你就可以一鍵上傳到Y(jié)ouTube或者是Google Omnitone支持的網(wǎng)頁，所以現(xiàn)在這些網(wǎng)站已經(jīng)可以看到很多360音頻內(nèi)容，F(xiàn)acebook也是支持的。

　　另外像Quad Binaural這種格式呢，用這種多路人頭錄音Omni-Binaural這種設(shè)備錄的話，它支持的平臺(tái)應(yīng)該是GearVR，還有其他的一些平臺(tái)，當(dāng)然時(shí)代拓靈的播放引擎也是支持的，但是它的缺點(diǎn)就是音軌數(shù)比較多，在平臺(tái)兼容性上還不是那么好，至于像Object Audio、杜比全景聲，它受局限的程度會(huì)更大一些，尤其是如果你不把它做一些轉(zhuǎn)換，那它的復(fù)雜度也是偏高。

　　在播放平臺(tái)方面國內(nèi)走得還是比國外慢一點(diǎn)，當(dāng)然我們自己的平臺(tái)可以支持Ambisonic全景聲播放，比如App（拓靈VR）、官網(wǎng)（）和YouTube個(gè)人主頁（twirlingVR）。我們也希望改變這種形式，可以通過和優(yōu)酷、橙子VR或其他VR垂直領(lǐng)域播放器去合作，可以盡快在他們的平臺(tái)上播放支持360度spaTIal audio的VR內(nèi)容。

　　全景聲的重要性

　　在VR體驗(yàn)里，我們首先是講全景視頻。現(xiàn)在視頻大家覺得已經(jīng)差不多了，那接下來在音頻上應(yīng)該怎么做呢？這其實(shí)是下半年很多人都在關(guān)注的一個(gè)問題，目前在國內(nèi)大家拍攝還是以傳統(tǒng)音頻為主，少數(shù)的團(tuán)隊(duì)開始研究這種全景聲的概念。

　　傳統(tǒng)音頻實(shí)際上是提前渲染好的聲音，無論你是立體聲聽音樂，或者是在影院里看電影，然后聽5.1，這些都是聲音混一次永遠(yuǎn)就不再變了，所以它不存在太多交互的概念。在VR里其實(shí)我們是需要強(qiáng)交互的，所以它對(duì)傳統(tǒng)的音頻算法提出了更苛刻的要求，傳統(tǒng)的5.1再復(fù)雜但是混一次是固定的，播放是非常固定的，所以不存在太多的效率問題。

　　但是在全景聲里，如果是做到完全重現(xiàn)現(xiàn)實(shí)生活中的場景，比如有一個(gè)特別復(fù)雜的場景，運(yùn)算量可能是非常高的，你需要人任何一個(gè)動(dòng)作，轉(zhuǎn)頭，低頭，移動(dòng)，都要重新計(jì)算一下這個(gè)聲場里的聲音到達(dá)人耳應(yīng)該需要正確的傳遞函數(shù)，導(dǎo)致所有的運(yùn)算都要重新算一遍，這個(gè)運(yùn)算量其實(shí)是非常非常大的。

　　我也坦誠地講，目前達(dá)到這種終極目標(biāo)在手機(jī)上肯定是實(shí)現(xiàn)不了的，我們目前所做的是怎么樣在特別高效的情況下，還能保證足夠好的質(zhì)量，這也是我們從去年成立公司到現(xiàn)在在研發(fā)上一直投入很大精力的地方。

　　全景聲就是需要通過交互來給你一個(gè)更好的臨場感，然后另外很重要的一點(diǎn)就是通過聲音我可以給導(dǎo)演更多的工具來展現(xiàn)他的意圖，用戶可以通過聲音來更好地理解導(dǎo)演的表達(dá)。

　　在VR視頻中，在無聲音的引導(dǎo)下，畫面可能會(huì)出現(xiàn)若干個(gè)關(guān)注點(diǎn)

　　相信大家都看過全景視頻，如果沒有聲音的提示，那么你在觀看的時(shí)候完全是按照自己的喜好去看視頻，猜測這個(gè)全景視頻到底在表達(dá)什么，我覺得這是非常沒有效率的。凡是國外拍的這些非常好的VR作品，無一例外它的聲音做得非常棒，都是通過全景聲的優(yōu)勢來有想法有目的地去引導(dǎo)觀眾去看內(nèi)容。