本文作者是時代拓靈CEO孫學京,整理自孫學京在ICEVE(北京國際先進影像大會暨展覽會)WorkShop演講。
為什么說全景聲是VR的標配,我不知道在座的各位對全景聲、VR的了解程度有多少,很長時間以來大家關注VR可能都是視頻,4K,或者是相機的質量,聲音確實比較少提及到,我相信大家在電影學院之前也做過配音工作,聲音確實在影視里也是很重要,但是我們?yōu)槭裁丛诮裉?,尤其在VR里再來強調一下呢,接下來就給大家講一講我們對它的認知。
什么是全景聲全景聲這個名詞大家也許不是很陌生,因為這幾年已經有出現(xiàn)過,包括杜比提出的杜比全景聲,所以我就通俗地講一下它和傳統(tǒng)音頻的區(qū)別。首先全景聲是一個全方位的展現(xiàn)形式,區(qū)別于立體聲和環(huán)繞聲的在一個水平面上,全景聲肯定是需要一個全方位360&TImes;360的展現(xiàn)形式,然后還有很重要的一點就是我們認為它需要支持交互,某種意義上和游戲,或者全景電影里非常密切相關的就是它不是靜止的,引用了很多交互的概念。
全景聲與3D音效的區(qū)別可能大家會問全景聲和3D音效是什么區(qū)別,我們認為全景聲是遠遠大于3D音效,3D音效可以認為是全景聲的一個子集,但是確實兩者在核心技術上又有非常多相通的地方。
從聲音的發(fā)展歷程我們簡單回顧一下,傳統(tǒng)是單聲道,尤其在通訊行業(yè),很多單聲道就幾乎是使用了數(shù)十年。立體聲大部分是用來聽音樂,這個也是有它一定的道理,因為我們在聽歌的時候人的這種平衡感還是很重要的,所以在影視、商業(yè)上是5.1/7.1,主要以杜比為首,它在商業(yè)上獲得了巨大的成功,其實在它出現(xiàn)的時候也是有一些不同的這種制式之爭吧,那最后5.1/7.1作為商業(yè)上一個能夠滿足大眾需求的,而推廣起來又比傳統(tǒng)的,其實就是我們今天說的Ambisonics前身的那種技術更加容易普及,所以它在商業(yè)上其實是統(tǒng)治了過去應該超過10年。
那現(xiàn)在5.1/7.1以后,大家甚至也聽到過13.1、22.1,這些都是有些影院在做的,包括日本NHK他們有這種更多揚聲器軌道的技術,那最新的這種Channel-based技術之后,大家在音頻領域關注的是什么技術呢?
目前國際上從標準來講,就是以杜比為首,它在推杜比全景聲Dolby Atmos,然后另外一個陣營是以Fraunhofer、Qualcomm為代表,他們是代表MPEG H這個陣營,也是提出新的制式來替代這種傳統(tǒng)的多軌AAC的編解碼,其實幾年前他們推這些標準的時候,那會兒VR還沒有特別火,但是它的核心技術已經開始引入Object Audio這么一個概念,然后在MPEG H的話,它會引入高階的Ambisonic概念,但是那時候更多面向影院行業(yè),并沒有和VR直接掛鉤,所以在交互方面它并沒有考慮特別多。
VR視頻里的聲音需要有方位性我剛才提到的交互特性也就是說我們在看VR內容的時候,其實是追求一種非常好的臨場感、現(xiàn)場感,那所謂體驗更好的真實性,是和人的交互必不可少的,如果只是靜止在那兒被動體驗導演給你呈現(xiàn)的內容,這種沉浸感是不夠的。
大家都體驗過VR頭盔,你至少轉頭會看到不同的全景內容,聲音也隨之變化。在更進階一點其實就類似于游戲里邊,你從一個房間進入到另外一個房間或者你在一個房間里,你湊近這個房間的角落,或者遠離這個角落,你聽到的聲音其實都是應該不一樣的,這和視覺的變化其實是一樣的,就是因為這些交互特性的引入,導致了傳統(tǒng)和5.1這種混音是不能滿足交互需求的。
我們還需要VR全景聲的技術,作為一個工程的系統(tǒng),它要支持耳機播放,因為在VR里面目前是以耳機為主,但是揚聲器在內也同樣需要支持,因為它會有另外一個應用場景,這些支持跨平臺,支持不同的VR設備也是我們作為一個商業(yè)公司,來做一套商業(yè)系統(tǒng)所必須要具備的特性。
一些VR相關的錄音技術
我們一般來講整個全景聲系統(tǒng)實際上是由采集、制作、到播放渲染這幾個比較關鍵的環(huán)節(jié)。如果大家對視頻這塊比較了解其實也是同樣的類比,你也需要從視頻的采集、剪輯到最后播放渲染都是同樣類似的幾個比較關鍵的模塊。
雙耳錄音
首先來講一些錄音技術。錄音有幾個比較主流的技術,傳統(tǒng)的就是立體聲錄音,比如像XY錄音,或者是AB錄音,它一般是兩個麥克風,位置可近可遠,它會收集到一個平面上的空間聲。那雙耳錄音實際上是立體聲里一個比較特殊的地方,它是用一個人工頭來模擬人的頭部特性,然后在人頭左右兩邊的人工耳這塊插入一些全向的麥克風,所以它會對三維聲場有一個非常逼真的模擬。播放這種聲音基本上是通過耳機來播放,不需要額外的編解碼或者格式的轉換。
HRTF
HRTF是我們在做3D音效或者是在聲音模擬里面最關鍵、最核心的技術之一,它底層的數(shù)學不算特別復雜,是用一些有線的FIR濾波器,模擬從頭部到聲源之間信息傳輸?shù)男盘朣ignal path,然后用一些簡單的數(shù)字來模擬一下。
目前我們常用的方法是我提前用人頭在一個消音室里從各個方位去采集非常多的人頭部傳遞函數(shù),比如說我在一米處放一個聲源在人頭的前面,零度角我放掃頻,或者是白噪聲以及粉噪聲,我可以重復很多次,在不同的角度,不同的高度我都會采集,然后把這些聲音記錄下來,經過一些數(shù)學分析,以數(shù)字的形式儲存下來。如果我將來需要去模擬3D音效的時候再把這些數(shù)學函數(shù)帶進去,當然也是在做的特別好的前提下。這里邊其實需要非常多的數(shù)學,非常多的工程上的考慮,比如說我們頭部的大小等等,其實這是一個很嚴重的問題。
Omni-Binaural
現(xiàn)在跟VR比較直接相關的我們叫它Omni-Binaural??磮D就能看出來,它是傳統(tǒng)人頭錄音的一個升級版,它是4個方向都有正反的兩個人工耳。其實這個設備是國外3Dio公司生產的,它省去了人的面部來模擬人頭,實際上是一個簡化版本。當然我也看過有國外團隊做的是一個有一點恐怖的模型,實際上是每一個面都有一個人臉,可以設想一下,確實有一點恐怖。但是它會比只用人耳的效果好一些。
如果我們用這種設備去錄音的話,實際上是可以看到每面兩個麥克風,所以你最后得到的是8軌聲音,所以是模擬四面四個方向,0度、90度、180度、270度,如果你想要更高的精度,那其實可以增加更多的面,現(xiàn)在基本上比較簡單的做法就是用四面來模擬,就是人站在不同的方位我都能聽到一個特別好的人頭錄音。
它的優(yōu)勢就是解碼比較簡單,然后我如果想聽45度的時候怎么辦?它實際上所做的辦法就是把0度的時候錄下來的聲音和90度的時候錄下來的聲音做一個中間的數(shù)學上的差值,所以其實是非常簡單的。但是隨之而來的效果就會打折扣,它會在45度的時候你聽到聲音的方位感就會略微模糊一些,這也是它的缺陷。
Ambisonic目前VR興起以后Ambisonic技術則變成了一個重要的技術,所以利用它錄音的話,在傳統(tǒng)上是以這種比較昂貴的麥克風為主,比如說像TSL的Soundfield,它基本上把麥克風的擺放位置是一個叫正四面體,Tetrahedron的這么一個麥克風擺放,你可以想象它其實就是每一個麥克風朝向一個方向,有朝上的、朝左、朝右、朝水平面四個方向,它可以把360度在一個點上聽到的聲音收錄下來。
所以這幾款產品TSL、TetraMic就是已經存在很長時間了,然后森海的Ambeo是今年剛出來,這幾款都是質量非常高,只是麥克風一個陣列,你如果需要用這個設備去采集的話,也是還要額外去用這種錄音設備,我們一般叫它軌機,可以支持多路的麥克風收錄。
我們可以看到,通常在一階Ambisonic用WXYZ來表示,這里邊用Zoom錄出來的話,它的Z軸是為零,只有WXY。第二款設備是我們公司時代拓靈推出的產品Twirling720,這款產品是四個channel,四個軌道都是有分量的,因此是更加完整意義上的一階Ambisonic的錄音設備。
剛才簡單介紹了我們在做全景聲錄音尤其在VR里主要用的兩個設備,一個就是Omni-Binaural,另外就是基于Ambisonic技術的錄音設備,當然還有傳統(tǒng)的一些錄音,比如5.1環(huán)繞聲,以及剛才提到的XY,或者AB這種立體聲錄音。
當你采音完了以后,所涉及到全景聲的傳輸與存儲,目前這一塊我個人認為是業(yè)界沒有解決的最大的一個問題所在。一旦牽扯到傳輸與存儲,它要求很強的格式上的統(tǒng)一。但是從另一個方面來看,只要談及到格式,就涉及特別多的商業(yè)利益,各家統(tǒng)一起來是非常困難的。
Ambisonic這個技術也是在VR出現(xiàn)以后可能用得會越來越多,這也是Google或者Facebook他們在兼容的一個格式,因為這個格式其實沒有什么專利的限制,所以是比較開放的。大家如果都遵守一個Ambisonic格式那么我就可以保證我的視頻在YouTube或Facebook上都可以播。但是這個格式其實某種意義上就像剛才說的Object Audio或者是Channel-based Audio,我個人稱它為表現(xiàn)形式,而并不是一個最終的編解碼,因為無論是哪種技術,底層的編解碼都可以用MP3或者是AAC來編碼,這個具體的編碼形式其實是另外更底層的一個技術。
全景聲如何播放?在這里提到了Ambisonic在VR領域的用處,比較核心的用處我們叫它中間格式,也就是無論什么采集格式或者用分軌做出來的格式,其實可以給它打包成Ambisonic的格式,就是剛才說的WXYZ,然后最后再給它轉成5.1或者立體聲,或者是支持旋轉。這樣大家會有一個握手的這么一個機制,有一個interface,這樣就比較好辦,如果進來就是杜比全景聲格式,其實很多品牌是播放不了的。
但YouTube和Facebook都可以播這種支持spaTIal 360、spaTIal audio的內容,像YouTube它就是基于Ambisonic為主,然后Google最近推出的網頁端的播放器叫Google Omnitone,也是基于Ambisonic這種解碼,所以如果你用的內容是剛才提到的Ambisonic采音設備,像Twirling720,那你就可以一鍵上傳到YouTube或者是Google Omnitone支持的網頁,所以現(xiàn)在這些網站已經可以看到很多360音頻內容,F(xiàn)acebook也是支持的。
另外像Quad Binaural這種格式呢,用這種多路人頭錄音Omni-Binaural這種設備錄的話,它支持的平臺應該是GearVR,還有其他的一些平臺,當然時代拓靈的播放引擎也是支持的,但是它的缺點就是音軌數(shù)比較多,在平臺兼容性上還不是那么好,至于像Object Audio、杜比全景聲,它受局限的程度會更大一些,尤其是如果你不把它做一些轉換,那它的復雜度也是偏高。
在播放平臺方面國內走得還是比國外慢一點,當然我們自己的平臺可以支持Ambisonic全景聲播放,比如App(拓靈VR)、官網()和YouTube個人主頁(twirlingVR)。我們也希望改變這種形式,可以通過和優(yōu)酷、橙子VR或其他VR垂直領域播放器去合作,可以盡快在他們的平臺上播放支持360度spaTIal audio的VR內容。
全景聲的重要性
在VR體驗里,我們首先是講全景視頻?,F(xiàn)在視頻大家覺得已經差不多了,那接下來在音頻上應該怎么做呢?這其實是下半年很多人都在關注的一個問題,目前在國內大家拍攝還是以傳統(tǒng)音頻為主,少數(shù)的團隊開始研究這種全景聲的概念。
傳統(tǒng)音頻實際上是提前渲染好的聲音,無論你是立體聲聽音樂,或者是在影院里看電影,然后聽5.1,這些都是聲音混一次永遠就不再變了,所以它不存在太多交互的概念。在VR里其實我們是需要強交互的,所以它對傳統(tǒng)的音頻算法提出了更苛刻的要求,傳統(tǒng)的5.1再復雜但是混一次是固定的,播放是非常固定的,所以不存在太多的效率問題。
但是在全景聲里,如果是做到完全重現(xiàn)現(xiàn)實生活中的場景,比如有一個特別復雜的場景,運算量可能是非常高的,你需要人任何一個動作,轉頭,低頭,移動,都要重新計算一下這個聲場里的聲音到達人耳應該需要正確的傳遞函數(shù),導致所有的運算都要重新算一遍,這個運算量其實是非常非常大的。
我也坦誠地講,目前達到這種終極目標在手機上肯定是實現(xiàn)不了的,我們目前所做的是怎么樣在特別高效的情況下,還能保證足夠好的質量,這也是我們從去年成立公司到現(xiàn)在在研發(fā)上一直投入很大精力的地方。
全景聲就是需要通過交互來給你一個更好的臨場感,然后另外很重要的一點就是通過聲音我可以給導演更多的工具來展現(xiàn)他的意圖,用戶可以通過聲音來更好地理解導演的表達。
在VR視頻中,在無聲音的引導下,畫面可能會出現(xiàn)若干個關注點相信大家都看過全景視頻,如果沒有聲音的提示,那么你在觀看的時候完全是按照自己的喜好去看視頻,猜測這個全景視頻到底在表達什么,我覺得這是非常沒有效率的。凡是國外拍的這些非常好的VR作品,無一例外它的聲音做得非常棒,都是通過全景聲的優(yōu)勢來有想法有目的地去引導觀眾去看內容。