基于ADSP-BF561的H.264視頻編碼器的實(shí)現(xiàn)

時(shí)間：2018-09-10 14:40:01

關(guān)鍵字： DSP pc 處理器嵌入式處理器視頻編碼通信

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]H.264／AVC是ITU-T VCEG和ISO／IEC MPEG聯(lián)合制定的最新視頻編碼國(guó)際標(biāo)準(zhǔn)，是目前圖像通信研究領(lǐng)域的熱點(diǎn)技術(shù)之一。H.264的視頻編碼層(VCL)采用了許多新技術(shù)，因而使其編碼性能有了大幅度提高。但這是以復(fù)雜度的成倍增加為代價(jià)的，這也使得H.264在實(shí)時(shí)視頻編碼及傳輸應(yīng)用中面臨著巨大的挑戰(zhàn)。

0引言

H.264／AVC是ITU-T VCEG和ISO／IEC MPEG聯(lián)合制定的最新視頻編碼國(guó)際標(biāo)準(zhǔn)，是目前圖像通信研究領(lǐng)域的熱點(diǎn)技術(shù)之一。H.264的視頻編碼層(VCL)采用了許多新技術(shù)，因而使其編碼性能有了大幅度提高。但這是以復(fù)雜度的成倍增加為代價(jià)的，這也使得H.264在實(shí)時(shí)視頻編碼及傳輸應(yīng)用中面臨著巨大的挑戰(zhàn)。因此，要滿足圖像壓縮的實(shí)時(shí)性要求，就需要對(duì)現(xiàn)有的H.264編解碼器進(jìn)行優(yōu)化。本文主要討論H.264系統(tǒng)的硬件平臺(tái)和任務(wù)流程，并針對(duì)基于DSP|3">DSP硬件平臺(tái)的特點(diǎn)，介紹了從代碼級(jí)對(duì)算法進(jìn)行優(yōu)化，進(jìn)一步提高編碼算法的運(yùn)算速度，實(shí)現(xiàn)H.264實(shí)時(shí)編碼的具體方法。由于ADI Blackfin561是AD公司推出的一款高性能的數(shù)字信號(hào)處理器，它具有600MHz的主頻。為此，本文選擇其作為硬件平臺(tái)，來(lái)探索在資源有限的DSP平臺(tái)上實(shí)現(xiàn)H.264編碼器的有效途徑。

1硬件平臺(tái)

1.1 ADSP-BF561處理器

Blackfin561是Blackfin系列中的一款高性能定點(diǎn)DSP視頻處理芯片。其主頻最高可達(dá)750 MHz，其內(nèi)核包含2個(gè)16位乘法器MAC、2個(gè)40位累加器ALU、4個(gè)8位視頻ALU，以及1個(gè)40位移位器。該芯片中的2套數(shù)據(jù)地址產(chǎn)生器(DAG)可為同時(shí)從存儲(chǔ)器存取雙操作數(shù)提供地址，每秒可處理1200M次乘加運(yùn)算。芯片帶有專用的視頻信號(hào)處理指令以及100KB的片內(nèi)L1存儲(chǔ)器(16 KB的指令Cache，16 KB的指令SRAM，64 KB的數(shù)據(jù)Cache／SRAM，4 KB的臨時(shí)數(shù)據(jù)SRAM)、128 KB的片內(nèi)L2存儲(chǔ)器SRAM，同時(shí)具有動(dòng)態(tài)電源管理功能。此外，Blackfin處理器還包括豐富的外設(shè)接口，包括EBIU接口(4個(gè)128 MB SDRAM接口，4個(gè)1MB異步存儲(chǔ)器接口)、3個(gè)定時(shí)／計(jì)數(shù)器、1個(gè)UART、1個(gè)SPI接口、2個(gè)同步串行接口和1路并行外設(shè)接口(支持ITU-656數(shù)據(jù)格式)等。Blackfin處理器在結(jié)構(gòu)上充分體現(xiàn)了對(duì)媒體應(yīng)用(特別是視頻應(yīng)用)算法的支持。

1.2基于ADSP-BF561的視頻編碼器平臺(tái)

Blackfin561視頻編碼器的硬件結(jié)構(gòu)如圖1所示。該硬件平臺(tái)采用ADI公司的ADSP-BF561 EZ-kit Lite評(píng)估板。此評(píng)估板包括1塊ADSP-BF561處理器、32 MB SDRAM和4 MB Flash，板中的AD-V1836音頻編解碼器可外接4輸入／6輸出音頻接口，而ADV7183視頻解碼器和ADV7171視頻編碼器則可外接3輸入／3輸出視頻接口此外，該評(píng)估板還包括1個(gè)UART接口、1個(gè)USB調(diào)試接口和1個(gè)JTAG調(diào)試接口。在圖1中，攝像頭輸入的模擬視頻信號(hào)經(jīng)視頻芯片ADV7183A轉(zhuǎn)化為數(shù)字信號(hào)，此信號(hào)從Blackfin561的PPI1(并行外部接口)進(jìn)入Blackfin561芯片進(jìn)行壓縮，壓縮后的碼流則經(jīng)ADV7179轉(zhuǎn)換后從ADSP-BF561的PPI2口輸出。此系統(tǒng)可通過(guò)Flash加載程序，并支持串口及網(wǎng)絡(luò)傳輸。編碼過(guò)程中的原始圖像、參考幀等數(shù)據(jù)可存儲(chǔ)在SDRAM中。

2 H.264視頻壓縮編碼算法的主要特點(diǎn)

視頻編解碼標(biāo)準(zhǔn)主要包括兩個(gè)系列：一個(gè)是MPEG系列，一個(gè)是H.26X系列。其中MPEG系列標(biāo)準(zhǔn)由ISO／IEC組織(國(guó)際標(biāo)準(zhǔn)化組織)制定，H.26X系列標(biāo)準(zhǔn)由ITU-T(國(guó)際電信聯(lián)盟)制定。I-TU-T標(biāo)準(zhǔn)包括H.261、H.262、H.263、H.264等，主要用于實(shí)時(shí)視頻通信，如電視會(huì)議等。

H.264視頻壓縮算法采用與H.263和MPEG-4類似的、基于塊的混和編碼方法，它采用幀內(nèi)編碼(Intra)和幀間編碼(Inter)兩種編碼模式。與以往的編碼標(biāo)準(zhǔn)相比，為了提高編碼效率、壓縮比和圖像質(zhì)量，H.264采用了以下全新的編碼技術(shù)：

(1) H.264按功能將視頻編碼系統(tǒng)分為視頻編碼層(VCL，Video Coding Layer)和網(wǎng)絡(luò)抽象層(NAL，Network Abstraction Layer)兩個(gè)層次。其中VCL用于完成對(duì)視頻序列的高效壓縮，NAL則用于規(guī)范視頻數(shù)據(jù)的格式，主要提供頭部信息以適合各種媒體的傳輸和存儲(chǔ)。

(2)先進(jìn)的幀內(nèi)預(yù)測(cè)，它對(duì)含有較多空域細(xì)節(jié)信息的宏塊采用4×4預(yù)測(cè)，而對(duì)于較平坦的區(qū)域則采用16×16的預(yù)測(cè)模式，前者有9種預(yù)測(cè)方法，后者有4種預(yù)測(cè)方法。

(3)幀間預(yù)測(cè)采用更多的塊劃分種類，標(biāo)準(zhǔn)中定義了7種不同尺寸和形狀的宏塊分割(16×16、16×8、8×16)和子宏塊分割(8×8、8×4、4×8、4×4)。由于采用更小的塊和自適應(yīng)編碼方式，故可使得預(yù)測(cè)殘差的數(shù)據(jù)量減少，從而進(jìn)一步降低了碼率。

(4)可進(jìn)行高精度的、基于1／4像素精度的運(yùn)動(dòng)預(yù)測(cè)。

(5)可進(jìn)行多參考幀預(yù)測(cè)。在幀間編碼時(shí)，最多可選5個(gè)不同的參考幀。

(6)整數(shù)變換(DCT／IDCT)。對(duì)殘差圖像的4×4整數(shù)變換技術(shù)，采用定點(diǎn)運(yùn)算來(lái)代替以往DCT變換中的浮點(diǎn)運(yùn)算。以降低編碼時(shí)間，同時(shí)也更適合到硬件平臺(tái)的移植。

(7)H.264／AVC支持兩種熵編碼方法，即CAVLC(基于上下文的自適應(yīng)可變長(zhǎng)編碼)和CABAC(基于上下文的自適應(yīng)算術(shù)編碼)。其中CAVLC的抗差錯(cuò)能力比較高，但編碼效率比CABAC低；而CABAC的編碼效率高，但需要的計(jì)算量和存儲(chǔ)容量更大。
(8)采用新的環(huán)路濾波技術(shù)及熵編碼技術(shù)等。

H.264的這些新技術(shù)使運(yùn)動(dòng)圖像壓縮技術(shù)向前邁進(jìn)了一大步，它具有優(yōu)于MPEG-4和H.263的壓縮性能，可應(yīng)用于因特網(wǎng)、數(shù)字視頻、DVD及電視廣播等高性能視頻壓縮領(lǐng)域。

3 H.264視頻編碼算法的實(shí)現(xiàn)

將H.264在DSP進(jìn)行改進(jìn)要經(jīng)過(guò)以下3個(gè)步驟：PC機(jī)上的C算法優(yōu)化、從PC機(jī)到DSP的程序移植、在DSP平臺(tái)上的代碼優(yōu)化。

3.1 PC機(jī)上的C算法優(yōu)化

根據(jù)系統(tǒng)要求，本設(shè)計(jì)選擇了ITU的Jm8.5版本baseline profile作為標(biāo)準(zhǔn)算法軟件。ITU的參考軟件JM是基于PC機(jī)設(shè)計(jì)的，故可取得較高的編碼效果。將視頻編解碼軟件移植到DSP時(shí)，應(yīng)考慮到DSP系統(tǒng)資源，主要應(yīng)考慮的因素是系統(tǒng)空間(包括程序空間和數(shù)據(jù)空間)，所以，需要對(duì)原始的C代碼進(jìn)行評(píng)估，這就需要對(duì)所移植的代碼有所了解。圖2所示是H.264的算法結(jié)構(gòu)。

了解了算法結(jié)構(gòu)以后，還需要確定在編碼算法的實(shí)現(xiàn)過(guò)程中，運(yùn)算量較大且耗時(shí)較長(zhǎng)的部分。VC6自帶的profile分析工具顯示：幀內(nèi)與幀間編碼部分占用了整體運(yùn)行時(shí)間的60％以上。其中ME(Move Estimation，運(yùn)動(dòng)估計(jì))又占用了其中較多的時(shí)間。所以，移植與優(yōu)化的重點(diǎn)應(yīng)在運(yùn)動(dòng)估計(jì)部分，因此，應(yīng)當(dāng)對(duì)代碼結(jié)構(gòu)進(jìn)行調(diào)整。

(1)大幅刪減不必要的文件和函數(shù)

由于選用了baseline和單一參考幀，因此，很多文件和函數(shù)都可以刪減，包括有關(guān)B幀、SI片、SP片和數(shù)據(jù)分割、分層編碼、權(quán)值預(yù)測(cè)模式、CABAC編碼模式等不支持特性的冗余程序代碼，同時(shí)包括rtp.c、sei.c、leaky_bucket.c、In-trafresh.c文件、相關(guān)的頭文件以及在global.h頭文件中相應(yīng)定義的全局變量和函數(shù)，此外，還可以刪除top_pic、bottom_pic等與場(chǎng)有關(guān)的全局變量與局部變量、分層編碼、多slice分割以及FMO、與場(chǎng)編碼／幀場(chǎng)自適應(yīng)編碼／宏塊自適應(yīng)編碼有關(guān)的預(yù)測(cè)、參考幀排序、輸入輸出以及解碼器緩存操作等；也可以刪除隨機(jī)幀內(nèi)宏塊刷新模式和權(quán)值預(yù)測(cè)模式等相關(guān)的冗余代碼(如使編碼器采用NAL碼流而非RTP格式)，同時(shí)刪除rtp.c；sei.c中包含一些輔助編碼信息(并不編入碼流中)，如果不用，也可以刪除leaky_bucket.c用于計(jì)算泄漏緩存器的參數(shù)。

(2)配置函數(shù)的改寫

由于JM的系統(tǒng)參數(shù)配置是通過(guò)讀取encoder.cfg文件來(lái)實(shí)現(xiàn)的，故可將參數(shù)配置由讀取文件改為通過(guò)初始化集中賦值函數(shù)來(lái)實(shí)現(xiàn)，這樣既減少了代碼量，又減少了對(duì)有限內(nèi)存空間的占用和讀取時(shí)間，提高了編碼器整體的編碼速度。例如：定義為int型的變量input->img_height就可直接改寫為input->img_height=288(CIF格式)。

(3)去除冗余的打印信息

為了調(diào)試與算法改進(jìn)的方便，JM保留了大量的打印信息。為了提高編碼速度，減少存儲(chǔ)空間消耗，這些信息完全可以刪掉，如大量的trace信息和編碼數(shù)據(jù)統(tǒng)計(jì)文件。如果lor.dat和stat.dat僅需在PC機(jī)上調(diào)試時(shí)使用，也沒(méi)必要移植到DSP平臺(tái)上，跟這部分相關(guān)的代碼完全可以去除。但是，調(diào)試時(shí)所需的基本信息(如碼率、信噪比、編碼序列等)則應(yīng)保留參考。

通過(guò)調(diào)整可使得代碼的結(jié)構(gòu)、容量更加精簡(jiǎn)，從而為接下來(lái)在DSP上的移植做好準(zhǔn)備。

3.2從PC機(jī)到DSP的程序移植

要將PC端精簡(jiǎn)的程序移植到ADSP-BF561的開發(fā)環(huán)境Visual DSP下，以使其能夠初步運(yùn)行，所需考慮的主要是語(yǔ)法規(guī)則和內(nèi)存分配等問(wèn)題。 (1)除去所有編譯環(huán)境不支持的函數(shù)

主要是除去某些與時(shí)間相關(guān)的函數(shù)、將文件操作修改為讀取文件數(shù)據(jù)緩存的操作、刪除SNR信息收集等DSP平臺(tái)實(shí)現(xiàn)不需要的代碼。還要注意：函數(shù)的聲明、數(shù)據(jù)結(jié)構(gòu)的類型要符合DSP的C語(yǔ)言格式。

(2)添加與硬件相關(guān)的代碼

該代碼包括系統(tǒng)初始化、輸出模塊代碼、中斷服務(wù)程序和碼速率控制程序等。

(3)配置LDF文件

因?yàn)閯傄浦驳拇a往往數(shù)據(jù)和程序都非常大，SRAM里面肯定是放不下的，這時(shí)鏈接就會(huì)有問(wèn)題。剛開始的時(shí)候，最好把所有的程序和數(shù)據(jù)都放在SDRAM里，這樣鏈接就不會(huì)有問(wèn)題了。Stack和heap情況類似，都先放到SDRAM。一般在開始時(shí)，往往需要的是一個(gè)可以正確運(yùn)行的程序，而速度倒在其次。

(4) Malloc問(wèn)題的解決

DSP下的開發(fā)，malloc是一個(gè)需要解決的問(wèn)題。如果動(dòng)態(tài)申請(qǐng)內(nèi)存，就算可以運(yùn)行，其結(jié)果往往也是不對(duì)的。所以，最好進(jìn)行靜態(tài)分配，可用數(shù)組的形式分配。

移植完畢后，即可實(shí)現(xiàn)基于ADSP-BF561處理器的H_264編碼，此時(shí)如果速度達(dá)不到實(shí)時(shí)編碼的要求，還可以進(jìn)一步進(jìn)行優(yōu)化。

4 DSP平臺(tái)上的代碼優(yōu)化

在Visual DSP開發(fā)環(huán)境下對(duì)代碼進(jìn)行優(yōu)化的主要方法有C語(yǔ)言級(jí)優(yōu)化和匯編級(jí)優(yōu)化。

4.1 C語(yǔ)言級(jí)優(yōu)化

通過(guò)VC6的profile分析工具發(fā)現(xiàn)：移植與優(yōu)化的重點(diǎn)應(yīng)在運(yùn)動(dòng)估計(jì)部分。筆者通過(guò)比較各種算法后選擇了菱形(DS)搜索法。DS算法可采用兩種搜索模板，分別是有9個(gè)檢索點(diǎn)的大模板LD-SP(Large Diamond Search Pattern)和有5個(gè)檢索點(diǎn)的小模板SDSP(Small Diamond Search Pattern)。其菱形搜索示意圖如圖3所示。搜索時(shí)，先用大模板計(jì)算，當(dāng)最小塊誤差SAD點(diǎn)出現(xiàn)在中心點(diǎn)處時(shí)，再將大模板LDSP換為SDSP進(jìn)行匹配運(yùn)算，這時(shí)，5個(gè)點(diǎn)中具有最小SAD者若為中心點(diǎn)，則該點(diǎn)即為最優(yōu)匹配點(diǎn)，然后結(jié)束搜索，否則將繼續(xù)以此點(diǎn)為搜索中心進(jìn)行SPSS搜索。

經(jīng)JM實(shí)驗(yàn)證實(shí)，采用此種方法，可以節(jié)約大約10％的運(yùn)行時(shí)間，且代碼量無(wú)太大增長(zhǎng)。

針對(duì)DSP的特點(diǎn)和相關(guān)的硬件指令，設(shè)計(jì)時(shí)可對(duì)代碼進(jìn)行如下優(yōu)化：

◇對(duì)程序結(jié)構(gòu)進(jìn)行調(diào)整。對(duì)不適合DSP執(zhí)行的語(yǔ)句進(jìn)行改寫，以提高代碼的并行性。
◇宏的使用。也就是將有些較短，執(zhí)行單一、調(diào)用次數(shù)多的函數(shù)改為宏。
◇循環(huán)優(yōu)化是將C語(yǔ)言中的for循環(huán)打開，排流水線，提高并行性。
◇計(jì)算表格化是將運(yùn)行時(shí)計(jì)算的參數(shù)做成便于查找的表格常數(shù)數(shù)值，從而將運(yùn)行計(jì)算轉(zhuǎn)化為編譯運(yùn)算。如在量化和反量化程序中進(jìn)行移位位數(shù)的處理時(shí)，可先計(jì)算出所有可能的值，而后來(lái)的運(yùn)算就可以通過(guò)查表得到數(shù)值。
◇浮點(diǎn)數(shù)定點(diǎn)化。因?yàn)锽lackfin561并不支持浮點(diǎn)運(yùn)算，但原始程序代碼卻是浮點(diǎn)運(yùn)算的格式，所以必須改成定點(diǎn)運(yùn)算，而其修改后的執(zhí)行速度也會(huì)加快很多。
◇盡量用邏輯運(yùn)算代替乘除運(yùn)算。由于乘除運(yùn)算指令的執(zhí)行時(shí)間要遠(yuǎn)遠(yuǎn)大于邏輯移位指令，尤其是除法指令，故應(yīng)盡量用邏輯移位運(yùn)算來(lái)代替乘除運(yùn)算，以加快指令的運(yùn)行速度。
◇盡量少進(jìn)行函數(shù)調(diào)用。對(duì)一些小的函數(shù)，最好是用適當(dāng)?shù)膬?nèi)聯(lián)函數(shù)將其直接寫入主函數(shù)中進(jìn)行替代，而對(duì)于一些調(diào)用不多的函數(shù)，也可以直接寫入主函數(shù)內(nèi)，這樣可減少不必要的操作以提高速度。
◇減少判斷轉(zhuǎn)換。
◇盡量靜態(tài)分配內(nèi)存。
◇調(diào)用系統(tǒng)提供的豐富的內(nèi)聯(lián)函數(shù)。

此外，為了充分發(fā)揮DSP的運(yùn)算能力，還必須從它的硬件結(jié)構(gòu)出發(fā)，最大限度地利用它的8個(gè)功能單元，使用軟件流水線盡量讓程序無(wú)沖突地并行執(zhí)行。也可將最耗時(shí)的函數(shù)抽取出來(lái)，用線性匯編改寫，從而最大限度的利用DSP的并行性。

4.2匯編級(jí)優(yōu)化

匯編級(jí)優(yōu)化主要指如下幾點(diǎn)操作：

(1)使用寄存器資源

Blackfin561提供了8個(gè)32位數(shù)據(jù)寄存器以及一系列的地址寄存器。使用寄存器代替局部變量時(shí)，若局部變量用來(lái)保存中間結(jié)果，那么用寄存器代替局部變量可省掉很多訪問(wèn)內(nèi)存的時(shí)間。

(2)使用專用指令

Blackfin561提供有求最大值、最小值、絕對(duì)值、CUP及大量視頻專用指令，應(yīng)可能用多位的指令來(lái)訪問(wèn)少位的數(shù)據(jù)。通過(guò)使用這些指令能大大提高代碼的執(zhí)行速度。如用int型(32位)訪問(wèn)2個(gè)short(16位)型數(shù)據(jù)時(shí)，可將其分別放在32位寄存器的高16位和低16位字段。這樣，數(shù)據(jù)讀取效率可以提高1倍，從而減少內(nèi)存訪問(wèn)次數(shù)。

(3)使用并行指令和向量指令

ADSP-BF561中每條通用指令都可以和一條或兩條存儲(chǔ)器訪問(wèn)指令并列執(zhí)行，這樣有利于ADSP-BF561的流水線滿負(fù)荷運(yùn)行，更充分發(fā)揮ADSP-BF561的數(shù)據(jù)處理能力。

(4)合理存放反復(fù)調(diào)用的程序段

把被反復(fù)調(diào)用的程序段(如DCT變換和IDCT變換)放在片內(nèi)程序存儲(chǔ)區(qū)中，把頻繁用到的數(shù)據(jù)段(如編碼表)放在片內(nèi)數(shù)據(jù)存儲(chǔ)器中，而把不常用到的程序和數(shù)據(jù)段放在片外存儲(chǔ)器中，以避免對(duì)程序或數(shù)據(jù)進(jìn)行不必要的反復(fù)搬移。

(5)合理使用內(nèi)外存儲(chǔ)器

BF561片內(nèi)只有256KB的存儲(chǔ)空間，因此當(dāng)前幀、參考幀和當(dāng)前幀的重建幀都必須放至片外存儲(chǔ)器，壓縮碼流若被主機(jī)讀取，也可放至片外。其它數(shù)據(jù)如程序代碼、全局變量、VLC碼表、各編碼模塊產(chǎn)生的中間數(shù)據(jù)等均可放至片內(nèi)。

(6)DMA的使用

由于CPU訪問(wèn)片外存儲(chǔ)器的速度通常要比訪問(wèn)片內(nèi)慢幾十倍，片外數(shù)據(jù)的傳輸通常成為程序運(yùn)行時(shí)的瓶頸，這樣，即使代碼效率很高，流水線也會(huì)因?yàn)榈却龜?shù)據(jù)而被嚴(yán)重阻塞。解決這一問(wèn)題的有效方法是用DMA傳送數(shù)據(jù)。程序是逐個(gè)宏塊進(jìn)行編碼的，在編碼當(dāng)前宏塊的同時(shí)，先由DMA將下一個(gè)宏塊的數(shù)據(jù)、用到的參考幀數(shù)據(jù)由片外傳送至片內(nèi)，當(dāng)前宏塊做完運(yùn)動(dòng)補(bǔ)償后，DMA又將重建后的宏塊由片內(nèi)傳送至片外。這樣CPU只對(duì)片內(nèi)數(shù)據(jù)進(jìn)行操作，從而使流水線可以順利進(jìn)行，而壓縮碼流按逐個(gè)碼字有時(shí)間間隔地寫入，可由CPU直接寫至片外。

5 結(jié)束語(yǔ)

經(jīng)過(guò)用ADSP-BF561匯編語(yǔ)言改寫的對(duì)應(yīng)函數(shù)的優(yōu)化程序經(jīng)調(diào)試運(yùn)行后，DCT，IDCT部分效率提高了大約15倍，去塊濾波部分效率提高了大約6～7倍。對(duì)于模塊中的其它部分函數(shù)，也同樣取得了良好的優(yōu)化結(jié)果。說(shuō)明其優(yōu)化工作確實(shí)達(dá)到了良好的效果。