(文章來源:布谷鳥網(wǎng)絡科技)
視頻聊天時候,因為可以看到彼此,對聲音也不那么在意。而純語音聊天時,人注意力都放在聲音上,對音質的要求更高。
1)整體穩(wěn)定的技術,1 對 1 語聊的技術門檻相對較低,多人語聊和特定場景相對復雜,技術實現(xiàn)難度比較大。以pia戲為例,如果經(jīng)常出現(xiàn)卡頓、延遲和聽不清的情況,會將營造的劇情氣氛破壞殆盡,主播時不時要退出重新登錄,無法全身心投入,用戶聽到的是斷斷續(xù)續(xù)的聲音,不能沉浸到劇情中。
自研的音視頻引擎,通過抖動緩沖技術、前向糾錯技術、丟幀補償技術減少網(wǎng)絡抖動和弱網(wǎng)環(huán)境下的延遲,保障語音通話低延時且清晰。讓用戶在復雜網(wǎng)絡環(huán)境和多類型手機的情況下,也能實現(xiàn)暢通優(yōu)質的語音通話。
2)多人聊天的語音前處理,以KTV語聊房為例,在房間當中,有人說話聲音、歌聲、伴奏都在房間呈現(xiàn),每個人所處的地方,所用的設備也不一樣,這就有很大可能出現(xiàn)回聲、噪音,或是某個人設備不是很好,發(fā)出的聲音很小。
成熟的語音前處理3A技術:回聲消除(AEC)、噪音抑制(ANS)、音量增益(AGC),杜絕回聲和嘯叫,降噪而無損音質。這樣歌者能展示甜美歌聲,聽眾也有良好的聽覺享受。
3)媒體次要信息同步,而在KTV類的場景中,AB兩人輪麥合唱,如果輪到B唱歌時發(fā)現(xiàn)歌詞沒同步,就很難唱下去。這當中技術難點就在于歌詞等媒體次要信息是否能做到同步。支持將非媒體信息注入媒體流中,歌詞等媒體次要信息和音視頻信息放在同一個媒體通道傳輸?shù)?,做到歌詞與歌聲同步展示果。