評(píng)估與測試體系是音視頻通話技術(shù)的質(zhì)量關(guān)鍵

時(shí)間：2020-06-02 22:15:01

關(guān)鍵字：騰訊音視頻技術(shù)

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀] 騰訊音視頻實(shí)驗(yàn)室于2016年成立，它專注于音視頻的前瞻性研究，依托于QQ的海量平臺(tái)，在音視頻實(shí)時(shí)通訊和直播領(lǐng)域有著十多年的研究和豐富的經(jīng)驗(yàn)。音視頻實(shí)時(shí)通信、音視頻直播、圖像處理、視頻處理和語音處

騰訊音視頻實(shí)驗(yàn)室于2016年成立，它專注于音視頻的前瞻性研究，依托于QQ的海量平臺(tái)，在音視頻實(shí)時(shí)通訊和直播領(lǐng)域有著十多年的研究和豐富的經(jīng)驗(yàn)。音視頻實(shí)時(shí)通信、音視頻直播、圖像處理、視頻處理和語音處理等技術(shù)水平在業(yè)內(nèi)已屬于領(lǐng)先水平，并正式開放自研的SPEAR音視頻引擎，將更多特性帶給開發(fā)者。目前QQ用戶每天的音視頻通話時(shí)長達(dá)12億分鐘，基于騰訊云平臺(tái)下，服務(wù)130+家客戶。

100個(gè)人心中有100個(gè)哈姆雷特，音視頻質(zhì)量協(xié)調(diào)是如此，有的人喜歡重低音帶來的震撼，有的人喜歡高還原帶來的真實(shí)。這就引入了另外一個(gè)問題，就是在可用資源有限的情況下，音視頻的維度是相互矛盾的，這種矛盾性使得我們做音視頻質(zhì)量評(píng)估時(shí)，標(biāo)準(zhǔn)變得非常模糊。最后是不確定性，影響音視頻質(zhì)量的因素有很多，燈光，網(wǎng)絡(luò)損傷，設(shè)備狀態(tài)等等，這些環(huán)境的隨機(jī)性引入了不確定性，給音視頻測試帶來了巨大的困難。

清晰度是衡量視頻通話質(zhì)量的重要因素，主觀測試方法會(huì)通過人眼的觀察，對(duì)畫面的清晰度進(jìn)行對(duì)比打分，更進(jìn)一步會(huì)觀察細(xì)節(jié)，進(jìn)行加權(quán)打分。對(duì)測試人員的辨識(shí)能力有一定的要求，如果測試量大的話，還需要考慮人員疲憊度對(duì)測試結(jié)果影響。如果清晰度差別并沒有達(dá)到一眼就能看出來的情況，那么主觀測試的結(jié)果參考性就會(huì)大大減弱，因此需要客觀測試進(jìn)行輔助。

剛剛說了客觀測試可以作為主觀測試的一種輔助手段，讓數(shù)據(jù)更具說服力。然而，有些測試，主觀難以完成，必須借助客觀測試的手段。例如我們要講的音頻端到端延時(shí)測試，音視頻通話是一種溝通行為，對(duì)實(shí)時(shí)性有較高的要求。設(shè)備的采集和渲染，引擎中各種信號(hào)處理，還有ARQ重傳、FEC、Jitter Buffer等等網(wǎng)絡(luò)抗性算法，都會(huì)引入延時(shí)，我們需要關(guān)注用戶真正體驗(yàn)到的延時(shí)。

測試模型中，把音頻信號(hào)輸入給終端A，終端B收到對(duì)應(yīng)的信號(hào)，再進(jìn)行采集，最后計(jì)算時(shí)間差。為了避免受到其他信號(hào)的干擾，我們采用的是計(jì)算互相關(guān)函數(shù)的方法來得到這個(gè)延時(shí)，通過查找互相關(guān)函數(shù)的最大值，可以得到兩個(gè)信號(hào)的偏移，再通過采樣率的關(guān)系最后得到時(shí)間差。

在一次測試的數(shù)據(jù)中看到，用延時(shí)來換取抖動(dòng)抗性，對(duì)用戶體驗(yàn)來說并不是非常友好。通過合理的安排主觀測試和客觀測試，去解決一部分主觀測試的問題，我們需要關(guān)注不同產(chǎn)品和環(huán)境下音視頻的情況，就要盡量消除環(huán)境的不確定性給音視頻測試帶來的困難。

在實(shí)際應(yīng)用中，發(fā)現(xiàn)操作起來會(huì)遇到非常多的問題，音視頻質(zhì)量存在著太多的不確定性。因?yàn)榄h(huán)境的多樣性和動(dòng)態(tài)性，我們需要對(duì)環(huán)境變量進(jìn)行精確的控制，需要有一個(gè)相對(duì)專業(yè)的實(shí)驗(yàn)室環(huán)境來進(jìn)行音視頻相關(guān)的技術(shù)測試。

一個(gè)基本的音視頻測試實(shí)驗(yàn)室應(yīng)該具備哪些條件呢？我們需要精確控制燈光，通過燈光設(shè)備來精確控制照度和色溫。需要精確控制聲音的輸入，因此，我們需要一個(gè)隔音室，用來隔絕外部的聲音以及內(nèi)部產(chǎn)生的回聲，并且模擬不同的聲音場景。我們還需要精確控制網(wǎng)絡(luò)損傷，在測試網(wǎng)絡(luò)抗性的時(shí)候，通過高精度的網(wǎng)絡(luò)損傷設(shè)備模擬不同的場景。

互聯(lián)網(wǎng)音視頻通話離不開網(wǎng)絡(luò)傳輸，網(wǎng)絡(luò)非常復(fù)雜，包括了網(wǎng)絡(luò)損傷的時(shí)變性，音視頻通話中不能像其他業(yè)務(wù)那樣靜態(tài)地看待網(wǎng)絡(luò)損傷，如何實(shí)時(shí)探測網(wǎng)絡(luò)損傷的變化，以及如何應(yīng)對(duì)，這是非常重要的問題。

常見的網(wǎng)絡(luò)損傷包括丟包，延時(shí)，抖動(dòng)，帶寬受限。其中丟包又分為固有丟包、擁塞丟包、隨機(jī)丟包、連續(xù)丟包、持續(xù)丟包、突發(fā)丟包，這些應(yīng)對(duì)方法都不一樣，作為測試，需要收集不同的模型。抖動(dòng)就是網(wǎng)絡(luò)延時(shí)的變化，由于音視頻通話的實(shí)時(shí)性和時(shí)續(xù)性，抖動(dòng)對(duì)通話質(zhì)量影響非常大，處理抖動(dòng)的方法就是引入Jitter Buffer。帶寬的適應(yīng)性是網(wǎng)絡(luò)流通一大難點(diǎn)，需要不影響通話質(zhì)量的前提下實(shí)時(shí)探測帶寬。傳統(tǒng)的帶寬探測方法很明顯不適用了，測試的時(shí)候需要關(guān)注帶寬探測的準(zhǔn)確度，適應(yīng)速度，以及帶寬的利用率，還有碼率平穩(wěn)度等等。另外還需要關(guān)注復(fù)合場景，我們需要不斷在現(xiàn)網(wǎng)的技術(shù)運(yùn)營中豐富復(fù)合場景模式。

實(shí)驗(yàn)室測試的結(jié)果可以明確的指出缺陷的存在，并且指導(dǎo)優(yōu)化的方向。因此，我們?cè)谡鎸?shí)環(huán)境中驗(yàn)證最終結(jié)果，但是在研發(fā)過程中，更加推薦實(shí)驗(yàn)室測試。在現(xiàn)網(wǎng)真實(shí)環(huán)境中，我們應(yīng)該如何對(duì)音視頻質(zhì)量進(jìn)行監(jiān)控呢？下面介紹矛盾與平衡，騰訊音視頻實(shí)驗(yàn)室正在使用的綜合性指標(biāo)，并結(jié)合EVA分享一下線上質(zhì)量控制和數(shù)據(jù)分析的方案。

為了真正做到線上衡量音視頻通話質(zhì)量，我們需要一個(gè)綜合各維度的結(jié)果型的數(shù)據(jù)，因此提出了無參考評(píng)估模型，EVA。首先解釋一下什么叫無參考評(píng)估模型，與之對(duì)應(yīng)的是全參考評(píng)估，就是可以拿原信號(hào)做參考，常見的算法有PSNR，SSIM，PESQ，POLQA等等，通常來講，全參考評(píng)估的準(zhǔn)確性比較高，實(shí)驗(yàn)室測試中也經(jīng)常使用。然而在很多情況下，實(shí)驗(yàn)人員并沒有辦法拿到原信號(hào)進(jìn)行參考，需要在只有被測信號(hào)前提下對(duì)質(zhì)量進(jìn)行評(píng)估，EVA就是這樣一套無參考評(píng)估。

僅通過QP無法完全表征視頻質(zhì)量對(duì)于人眼的感受，因此需要引入內(nèi)容特征的空域復(fù)雜度和時(shí)域復(fù)雜度作為輸入?？紤]到計(jì)算的復(fù)雜度，需要使用1幀大小以及運(yùn)動(dòng)向量mv，結(jié)合編碼分辨率和QP來擬合空域復(fù)雜度和時(shí)域復(fù)雜度。作為視頻，單幀質(zhì)量是遠(yuǎn)遠(yuǎn)不夠的，因此騰訊音視頻實(shí)驗(yàn)室引入了幀渲染間隔作為輸入，用來表征幀率，幀率抖動(dòng)，以及卡頓，對(duì)視頻通話質(zhì)量的影響。

最后一個(gè)參數(shù)是延時(shí)，這是溝通質(zhì)量的特征，延時(shí)對(duì)通話質(zhì)量的影響要視具體的應(yīng)用場景而定，例如音視頻實(shí)時(shí)通話和直播，明顯是不一樣的。是否有音視頻層面的互動(dòng)，決定了單向延時(shí)還是雙向延時(shí)。

騰訊音視頻實(shí)驗(yàn)室通過EVA的數(shù)據(jù)上報(bào)，來監(jiān)測質(zhì)量進(jìn)行分時(shí)分區(qū)域的變化情況。還有一個(gè)最重要的應(yīng)用，就是可以做A/B Test，在后臺(tái)發(fā)布兩種不同的流控策略，通過EVA數(shù)據(jù)來判斷兩種策略的效果。如圖所示，藍(lán)色曲線和紅色曲線分別代表兩種策略，通過EVA數(shù)據(jù)可以看到藍(lán)色的效果遠(yuǎn)遠(yuǎn)優(yōu)于紅色，最后藍(lán)色策略。

線上質(zhì)量評(píng)估僅僅從全局維度是不夠的，全網(wǎng)質(zhì)量分析可以幫助了解大盤，宏觀評(píng)估音視頻質(zhì)量優(yōu)化的效果，但是回到具體問題的解決，還是需要個(gè)例進(jìn)行分析，為此騰訊音視頻實(shí)驗(yàn)室開發(fā)了一套線上實(shí)時(shí)單例的監(jiān)控系統(tǒng)，以及線下分析系統(tǒng)，以秒為單位去分析音視頻質(zhì)量。

最后對(duì)這次分享做一下總結(jié)，這次分享圍繞騰訊音視頻實(shí)驗(yàn)室在音視頻質(zhì)量評(píng)估的三大痛點(diǎn)的思考和實(shí)踐，來側(cè)面介紹了騰訊音視頻質(zhì)量評(píng)估的整個(gè)體系。對(duì)于主觀性，首先要肯定主觀測試的重要性，當(dāng)主觀測試無法滿足需求的時(shí)候，配合客觀測試的方法進(jìn)行評(píng)估。對(duì)于不確定性，需要對(duì)測試環(huán)境進(jìn)行精確的把控，減少不確定性因素，最后在真實(shí)環(huán)境中驗(yàn)證最終結(jié)果。對(duì)于矛盾與平衡，需要一套綜合評(píng)價(jià)的數(shù)據(jù)，結(jié)合其他維度的數(shù)據(jù)來建立全局和單例的數(shù)據(jù)分析和線上監(jiān)控。