MPEG-4視頻編碼技術(shù)及在多媒體通信中的應用
關(guān)鍵詞:MPEG-4視頻編碼技術(shù);多媒體傳輸系統(tǒng);設(shè)計與應用
一、引 言
MPEG-4是運動圖像專家組(Moving Picture Ex-pert Group)標準家庭中的一員,是國際標準化組織為多媒體通信制定的一種解決方案。當今迅速發(fā)展的交互式計算機游戲圖像顯示、交互式視頻點播(VOD)都表明電視正由“純線性”向“非線性”的方向發(fā)展。MPEG-1/2均是以音頻幀、視頻幀為編碼對象的,圖像中的AV(Audio、Video)對象所組成的場景不能與人們進行交互。而MPEG-4的主要特點是對圖像中的內(nèi)容進行編碼,其具體的編碼對象就是圖像中的音頻和視頻信號,稱為AV對象。MPEG-4就是圍繞著AV對象的編碼、存儲、傳輸和組合而制定的。所以,MPEG-4有非線性電視的編碼、存儲、傳輸和組合的標準之稱。
二、MPEG-4的圖像與視頻標準的技術(shù)結(jié)構(gòu)
1.MPEG-4的圖像與視頻標準的技術(shù)結(jié)構(gòu)
如圖1所示,底層是VLBV(Very LowBit RateVideo)核心,它為5~64 kbit/s視頻操作和應用提供算法與工具,支持較低的空間分辨率(低于352x288像素)和較低的幀頻(低于15 Hz)。VLBV核心支持的專用功能包括實時多媒體應用:支持矩形圖像序列的有效編碼,具有高編碼效率、高精度、高容錯度、低延時等特點;以及多媒體數(shù)據(jù)庫應用:支持多媒體數(shù)據(jù)庫的存儲、隨機存取以及FF/FR(快進/快退)等功能與操作。
三、MPEG-4視頻編碼標準與MPEG-1/2及其與H.26X的比較
MPEG-1/2/4視頻壓縮和H.26X視頻壓縮技術(shù)都是以DCT(離散全余弦變換)為基礎(chǔ)。但它們又各有不同的特點。
MPEG-1標準制定主要針對1.5 Mbps以下數(shù)據(jù)傳輸率的數(shù)字存儲媒質(zhì)運動圖像及其伴音編碼的國際標準,它用于在CD-ROM上存儲同步和彩色運動視頻信號。采用SIF標準交換格式(對于NTSC制式為352×240,對于PAL制式為352×288)的圖像進行壓縮,每秒能夠播放30幀,具有CD音質(zhì)。
MPEG-2標準追求的是CCIR601建議的圖像質(zhì)量DVB、HDTV和DVD等制定的3~10 Mbps高質(zhì)量的運動圖像及其伴音的編碼標準。MPEG-2可用于為廣播、有線電視網(wǎng)、電纜網(wǎng)絡以及衛(wèi)星直播(Direct Broadcast Satellite)提供廣播級的數(shù)字視頻。
H.261的制定是適用于ISDN網(wǎng)的寬帶傳輸,它提供了P×64 kbit/s的視聽業(yè)務用的視頻編解碼。
H.263是適用于PSTN(公用電話網(wǎng))的窄帶通信信道的視頻編碼建議,可用于可視電話極低碼率的編解碼器,它是H.261的重要發(fā)展。
MPEG-4標準提供用于通信的新方式,其核心是基于內(nèi)容的AV信息存儲及操作,支持交互性、高壓縮比及能用存儲性。同時它在結(jié)構(gòu)上具有適應性和可擴展性,以適應軟硬件的迅速發(fā)展,及時融入新的技術(shù)。由于將內(nèi)容和交互性作為MPEG-4的核心,就不再把具體的碼率范圍作為特別的要求,但低碼率依然是其一項基本內(nèi)容,它在極低碼率的傳輸上與H.263具有一定的相似性,但是它也支持高質(zhì)量的視頻語音通信。所以,MPEG-4提供了一個更為廣闊的開發(fā)平臺,更符合于多媒體通信的發(fā)展趨勢,具有更廣闊的應用前景。
四、MPEG-4為標準的多媒體傳輸系統(tǒng)
1.方案設(shè)計
基于以上的各視頻編碼標準的比較及實際應用的需要,我們設(shè)計了一套基于Internet網(wǎng)的多媒體通信系統(tǒng)。該系統(tǒng)的組成如圖2所示,主要包括多媒體信息處理模塊、TCP/IP通信協(xié)議模塊、通信接口模塊、控制模塊、外部設(shè)備接口及外部設(shè)備模塊(攝像頭、麥克風、顯示器、揚聲器)。
2.各模塊功能及實現(xiàn)
(1)多媒體信息處理模塊
它主要基于MPEG-4標準,根據(jù)不同的應用要求對視頻和音頻數(shù)字信號進行不同程度的壓縮/解壓縮。
1)視頻/音頻信號的壓縮
采用TI公司最新推出的TMS3206415DSP芯片,它支持圖像的8 bit數(shù)據(jù)處理的指令。它的運算速度快,最高運行速度高達600 MHz,指令周期最短為1.67 ns,峰值處理速度達到了3 200~4800 MIPS。在音頻/視頻應用中,其性能提高15倍。具有先進的超長指令字結(jié)構(gòu)(VLIW),獲得當前應用設(shè)備所需要的極高性能。內(nèi)核的8個功能單元能夠在每個周期內(nèi)執(zhí)行4組16位MAC運算或8組8位MAC運算,以便在處理通信和影像算法中獲得最大的并行性。如果用C6415同時完成一個通道的MPEG-2視頻編碼、一個通道的MPEG-4視頻編碼和一個通道的視頻解碼,其硬件資源還只占用了50%,可見其強大的計算能力。該芯片具有1 056字節(jié)片上SRAM的實時分層存儲系統(tǒng),用于加快超高速DSP內(nèi)核。64通道的增強型存儲器直接存?。‥DMA)控制器,顯示出出色的并行性特點。外部雙總線提供了超過1.2 G字節(jié)的外部存儲器帶寬。同時還提供33MHz/32 bit的PCI接口及3個多通道緩沖串行口。這些都為視頻、音頻信號的實時處理提供了便利的條件。
2)視頻壓縮模塊
采用MPGE-4標準,實現(xiàn)基于內(nèi)容的編碼和編碼可分級性,其核心編碼器的結(jié)構(gòu)如圖3所示:基本層采用的是MPEG-4基本模式編碼,并輸出基本視頻流,增強層的輸入信號是原始VOP和幀存(重建)的VOP的差值,并對其差值進行8×8的DCT,然后對DCT系數(shù)進行比特平面編碼。根據(jù)比特平面的重要性,將重要的比特放在碼流前端,如一個塊的MSB,將次要比特放在后端,比如一個塊的LSB,這樣在網(wǎng)絡發(fā)生擁塞時就可以先丟棄部分不重要的比特以減緩網(wǎng)絡負載,但解碼端對接收碼流仍可解碼,只是圖像質(zhì)量會有所下降。解碼器是編碼器的逆過程。
3)采用MPEG-4標準的視頻壓縮的特點
①傳統(tǒng)編碼與基于內(nèi)容編碼的統(tǒng)一
MPEG-4視頻算法的核心是支持基于內(nèi)容(Content-based)的編碼和解碼功能,也就是對場景中使用分割算法抽取的單獨的物理對象進行編碼和解碼。為了實現(xiàn)預想的內(nèi)容及交互等功能,MPEG-4引進了一個叫做“視頻對象面”(Video Object Plane,簡寫為VOP)的概念,如圖4所示。圖4(a)表示支持MPEG-1和MPEG-2的普通MPEG-4編碼器,它把視頻圖像都認為是一個矩形區(qū),圖4(b)表示MPEG-4的甚低碼率圖像(VLVB)的核心編碼器。它是假設(shè)每幀圖像被分割成許多任意形狀的對象,每個對象都有可能覆蓋描述場景中感興趣的物理對 象或者內(nèi)容,這被定義為VOP。然后單獨對VOP的形狀、運動和紋理信息進行編碼和傳送構(gòu)成一個單獨的視頻對象層(Video Object Layer,簡寫為VOL)。此外,還需要標識每個VOL的信息也包含在編碼后的比特流(Bitstream)中,也包括各種VOL的視頻圖像在接收端應該如何進行重新組合的信息,以便重構(gòu)完整的原始圖像序列。這樣就可以對每個VOP進行單獨解碼,提供了管理視頻序列的靈活性。
如果輸入圖像序列只包含標準的矩形圖像,就不需要形狀編碼,在這種情況下,MPEG-4 Video使用的編碼算法結(jié)構(gòu)也就與MPEG-1和MPEG-2使用的算法結(jié)構(gòu)相同。
②實現(xiàn)編碼的連續(xù)可分級性
MPEG-4第4版針對Internet視頻流式傳輸?shù)膽?,定義了視頻圖像編碼的精細可分級性(FGS,即Fine Granularity Scalability)及其實現(xiàn)工具。由于FGS編碼提出了一個由網(wǎng)絡接收端來控制其所接收的碼流的概念,使其在Internet上的傳輸更具適應性。
在視頻的分級編碼技術(shù)中,視頻信息被分成多個不同重要性的層,其中基本層包含了視頻對象中最重要的基本信息,以此可以保證一個最基本的圖像質(zhì)量,在傳輸過程中被賦予較高的優(yōu)先級。增強層的作用是在基本層的基礎(chǔ)上進一步提高圖像質(zhì)量,在傳輸中賦予較低的優(yōu)先級。這樣在網(wǎng)絡發(fā)生擁塞而丟包時,就可以先丟棄優(yōu)先級較低的增強層,使得基本層發(fā)生丟包或誤碼的概率比增強層低,從而保證重建圖像仍然有一個讓人可以接受的質(zhì)量。
4)語音壓縮
采用CELP(Code Excited Linear Predication)碼激勵線性預測技術(shù)。傳統(tǒng)的CELP編碼器提供單一的碼率的壓縮,而本系統(tǒng)允許多種應用使用一個基本的編碼器,在碼率和帶寬上提供了可擴展性。根據(jù)不同應用需要可選擇8 kHz和16 kHz 2種采樣頻率,8 kHz采樣頻率對應100~3 800 Hz帶寬的通信質(zhì)量,16 kHz采樣頻率對應50~7 000 Hz帶寬的通信質(zhì)量。
(2)外部設(shè)備接口模塊
本系統(tǒng)采用的PHILIP公司的視頻編碼芯片SAA7111,對模擬攝像機的輸入模擬視頻信號進行亮色分離,再對分離后的信號分別進行8比特采樣,然后按CCR601R的標準編碼成8比特寬度的Y(亮度信號)和UV(色度信號)數(shù)字圖像信號,Y:U:V為4:2:2。芯片提供場同步信號VREF、行同步信號HREF、奇偶場信號RES1、像素時鐘信號LLC2輸出,省去了時鐘同步電路的設(shè)計,可靠性得到提高。
視頻解碼采用BT864芯片完成數(shù)字視頻信號到RGB模擬電視信號的轉(zhuǎn)換。
模擬音頻經(jīng)芯片TLC320AD50C進行PCM編碼/解碼,其采樣速率為8~22.4 kHz,并可通過編程設(shè)置,采用串行通信。
(3)控制模塊
采用Microchip公司生產(chǎn)的PIC系列的單片機,采用內(nèi)部帶Flash程序存儲器的機型。
它的功能是完成各個功能模塊的初始化,以及對各個功能模塊的控制,實現(xiàn)用戶接口,實現(xiàn)H.245控制協(xié)議的功能,實現(xiàn)多媒體數(shù)據(jù)流、控制信息數(shù)據(jù)流等的復接/解復接;根據(jù)網(wǎng)絡通信狀態(tài),及時地控制編碼過程以實現(xiàn)對碼率的控制,實現(xiàn)通信建立、通信過程控制,它是整個系統(tǒng)的控制核心。
(4)通信模塊
采用的是Seiko公司生產(chǎn)的包含了TCP/IP網(wǎng)絡協(xié)議堆的大規(guī)模集成電路S-7600A,它的功能是將數(shù)據(jù)流封裝成IP數(shù)據(jù)包。它集成了TCP/IP協(xié)議,并提供了軟件開發(fā)包,使應用程序的開發(fā)變得非常容易。其主要性能如下:支持TCP/IP(Ver.4.0)協(xié)議、PPP協(xié)議和UDP協(xié)議;支持與MPU(微處理器)并行或串行2種接口方式;配置了2個通用的Sock-et,實現(xiàn)與MPU的數(shù)據(jù)交換;支持與物理傳輸層的UART接口;同時還有10 KB的在片SRAM,其中有4KB作為TCP、IP、及PPP的數(shù)據(jù)緩沖器另6 KB分別為Socket0和Socket1兩個數(shù)據(jù)交換口的發(fā)送和接收緩沖器。S-7600A中還有各種寄存器,MPU通過對寄存器的讀寫操作去控制S-7600A,包括時鐘頻率的設(shè)定,可以根據(jù)不同的應用,設(shè)定所需的時鐘頻率。
該模塊以RS-232接口(TTL電平)方式與外部網(wǎng)絡連接。
(5)網(wǎng)絡接口模塊
網(wǎng)絡接口模塊可提供2種入網(wǎng)方式,一種是通過Modem經(jīng)PSTN入網(wǎng),此種入網(wǎng)方式適用于對圖像質(zhì)量要求不高、低量運動的情況,比如可視電話;一種是以以太網(wǎng)接口或雙絞線的方式入網(wǎng),這種方式可提供較寬的帶寬,可以達到比較好的圖像、語音質(zhì)量。
本系統(tǒng)現(xiàn)支持低碼率(10~512 Kbit/s)的傳輸速率,采用S-QCIF格式或QCIF格式,幀率低于30幀/秒。若采用其它通信模塊,則可支持(1~4 Mbit/s)的高碼率的傳輸,提供較高的通信質(zhì)量。本套系統(tǒng)還具有低功耗、算法的可升級性強、并且完全支持TCP/IP協(xié)議等優(yōu)點,更重要的是,它支持MPEG-4標準,更符合寬帶網(wǎng)絡日趨智能化、交互化的發(fā)展趨勢。
五、結(jié)束語
MPEG-4視頻編碼技術(shù)采用了現(xiàn)代圖像編碼方法,利用人眼視覺特性,從輪廓-紋理的思路出發(fā),支持基于內(nèi)容和對象的編碼,支持基于內(nèi)容的交互功能,并實現(xiàn)編碼的連續(xù)可分級性,根據(jù)網(wǎng)絡的通信狀況控制視頻圖像質(zhì)量。MPEG-4視頻編碼正在完成從基于像素的傳統(tǒng)編碼向基于對象和內(nèi)容的現(xiàn)代編碼的轉(zhuǎn)變,它代表了新一代智能圖像編碼,必將對未來圖像通信機制產(chǎn)生深遠的影響。
參考文獻
[2] Overview of the MPEG-4 Standard[S].ISO/IECJTC1/SC29/WG11,Mar,2000,N3342.
[3] 精英科技.視頻壓縮與音頻編碼技術(shù)(第一版)[M].中國電力出版社,2001.
[4] Hardware Specification S-7600A TCP/IPNetwork ProtocolLSI[S].
[5] 陳志波,何云.面向Internet的視頻編碼技術(shù):精細可分級性的實現(xiàn)[J].中國圖像圖形學報,2001,(6).
[6] Behrouz A.Forouzan&Sophia Chung Fegan著,謝希仁譯.TCP/IP協(xié)議族(第一版)[M].清華大學出版社,2001.
[7] TMS320C6X系列DSP使用手冊[S].