騰訊音視頻解讀直播的前沿技術(shù)
去年其實(shí)有很多的直播APP成長出來,但是提供低延遲高互動的直播平臺并不多,因?yàn)檫@里面涉及到的技術(shù)相當(dāng)多,這里僅僅是列出了所有用到直播技術(shù)的冰山一角。在直播通用方案的基礎(chǔ)上,我們持續(xù)的在垂直行業(yè)場景上深耕細(xì)作,不斷的針對場景特點(diǎn)進(jìn)行技術(shù)上的創(chuàng)新,將細(xì)微的體驗(yàn)做到極致,下面會詳細(xì)講兩個場景的案例。
首先是K歌場景。音樂對音質(zhì)的要求非常高,正常情況下人的感知損傷,對音樂的感知非常明顯。假如是普通的語音通訊,其實(shí)60毫秒的丟包基本上人耳有所感知,但是換作音樂場景,20毫秒可能就會聽得非常明顯。我們會從采集到傳輸?shù)讲シ牛瑢⒄麄€鏈路進(jìn)行優(yōu)化,降低整個的感知損傷。第二,我們還給音樂信號做了拉伸、壓縮的技術(shù),都是為了抗抖動、丟包產(chǎn)生的損傷以后怎么樣去彌補(bǔ)。?
另一個是金融直播場景。金融場景的屏幕分享不僅是講K線圖,其實(shí)在教育場景用的也比較多,這里有一個技術(shù)難點(diǎn),對屏幕編碼的要求非常高,這里面會涉及到對屏幕壓縮后怎么樣傳輸,還有CPU怎么樣去控制。在屏幕分享的過程中,還涉及到一些問題。比如,從語音、視頻到屏幕,三方的流量是完全不一樣的,怎么樣控制這三方的同步,我們也是花了很長時間去解決。
2016年是直播的元年,也是人工智能和VR的元年,我們在這些技術(shù)方面有一些思考和研究。首先是語音識別和自然語言處理,直播加上語音識別,會有很多的玩法。QQ早在今年春節(jié)的時候,已經(jīng)有了這樣的嘗試。在QQ視頻聊天的時候,大家可能會出發(fā)一些彩蛋,假如跟對方聊天的時候說恭喜發(fā)財(cái),我們的界面上就會飄出一個紅包,類似這樣的語音命令,在直播的場景下也是非常契合的。
還有實(shí)時字幕和翻譯,假如一個老外在你的直播平臺,他邊說自己的家鄉(xiāng)話,他下面會有翻譯出來的字幕,他作為一個外國的主播,是不是可以和中國的觀眾進(jìn)行無縫的交流。實(shí)時變聲,QQ本身已經(jīng)實(shí)現(xiàn)了很多,可以變?yōu)樽冃谓饎偟穆曇艋蛘吒愎值穆曇?。接下來我們會把某一個人的聲音,或者你自己的聲音,變成某一個明星的聲音。在K歌場景,假如你可以把自己變成某一個歌星,在上面唱歌也是挺有意思的一件事情。?
在機(jī)器視覺方面,外面展臺有我們的直播和綠幕的技術(shù)。之前技術(shù)只是用作于電影制作,現(xiàn)在這種技術(shù)已經(jīng)可以慢慢地民用。我們同事也在嘗試非綠幕的一些算法,通過人工智能怎么樣可以進(jìn)行更好的前景和背景的分割,我相信不遠(yuǎn)的將來這方面會有一些成績出來。?
還有手勢識別,涉及到人機(jī)交互的方向,傳統(tǒng)的算法進(jìn)展不是很大。去年AR的發(fā)展,我覺得手勢識別技術(shù)方向,可能是下一個突破口,因?yàn)橥ㄟ^人工智能可以把這方面技術(shù)很快突破。有了這樣一個全新的進(jìn)展以后,我們在直播、互動方面,可以讓主播和我們的觀眾進(jìn)行一個更多花樣的互動。
最后我會講一下VR的方向,雖然VR在整個行業(yè)來看不是特別成熟,畢竟會有一個起步的階段。首先會有一些360度全景的視頻,在這個過程中我們在不斷地打磨我們的基本算法和能力,比如說一些拼接的能力,怎么樣進(jìn)行一些雙目渲染,為我們將來做VR做儲備。?
剛才說到很多技術(shù)并不是科幻,也不是離我們很遠(yuǎn)的事情,這些技術(shù)很多已經(jīng)在我們的產(chǎn)品中使用,后面很多都會加入到開放,給更多的合作伙伴提供這樣一些能力。我覺得可能從技術(shù)來講,直播的未來可能更多是一種技術(shù)創(chuàng)新,不管是AI或者VR,技術(shù)創(chuàng)新可能才是直播下一個真正的戰(zhàn)場,謝謝大家。
據(jù)了解,騰訊在音視頻實(shí)時通信、音視頻直播、圖像處理、視頻處理和語音處理等技術(shù)領(lǐng)域擁有十多年的經(jīng)驗(yàn)沉淀,技術(shù)水平已在業(yè)內(nèi)領(lǐng)先。為行業(yè)數(shù)百個產(chǎn)品提供了音視頻技術(shù)支持與服務(wù),如QQ電話/視頻電話、騰訊云、QQ空間、全民K歌、快手、斗魚、虎牙、蘑菇街等。
騰訊在2011年成立了音視頻中心,2015年底向行業(yè)開放了其自主研發(fā)的SPEAR音視頻引擎,目前僅QQ音視頻每天的通話就高達(dá)12億分鐘,2016年成立的騰訊音視頻實(shí)驗(yàn)室致力于音視頻及圖像處理技術(shù)創(chuàng)新,為更廣大的用戶和行業(yè)客戶提供穩(wěn)定優(yōu)質(zhì)的音視頻及圖像處理服務(wù)。