視頻壓縮編解碼標(biāo)準(zhǔn)綜述
標(biāo)簽:視頻傳輸 視頻壓縮編解碼
隨著Internet帶寬的不斷增長,在Internet上傳輸視頻的相關(guān)技術(shù)也成為Internet節(jié)研究和開發(fā)的熱點。目前,許多實驗性的高速寬帶網(wǎng)絡(luò)都把視頻傳輸?shù)募夹g(shù)和應(yīng)用作為研究的重點課題。在Internet上傳輸視頻有許多困難,其根本的原因在于Internet的無連接每包轉(zhuǎn)發(fā)機制主要為突發(fā)性的數(shù)據(jù)傳輸設(shè)計,不適用于對連續(xù)媒體流的傳輸。為了在Internet上有效的、高質(zhì)量的傳輸視頻流,需要多種技術(shù)的支持,其中數(shù)字視頻的壓縮編碼技術(shù)是Internet視頻傳輸中的關(guān)鍵技術(shù)之一。此外,在多媒體的傳輸、處理、應(yīng)用中還有許多問題:如何在網(wǎng)絡(luò)上傳輸視頻?如何通過手機上網(wǎng)并接收視頻和圖像?如何對多媒體數(shù)據(jù)進行快速有效的檢索?如何對多媒體信息進行統(tǒng)一的存取?等等。
目前視頻流傳輸中最為重要的編解碼標(biāo)準(zhǔn)有國際電聯(lián)的H.261、H.263,運動靜止圖像專家組的M-JPEG和國際標(biāo)準(zhǔn)化組織運動圖像專家組的MPEG系列標(biāo)準(zhǔn),此外在互聯(lián)網(wǎng)上被廣泛應(yīng)用的還有Real-Networks的RealVideo、微軟公司的WMT以及Apple公司的QuickTime等。具體如下:
一、國際電聯(lián)的H.261、H.263標(biāo)準(zhǔn)
1.H.261
H.261又稱為P*64,其中P為64kb/s的取值范圍,是1到30的可變參數(shù),它最初是針對在ISDN上實現(xiàn)電信會議應(yīng)用特別是面對面的可視電話和視頻會議而設(shè)計的。實際的編碼算法類似于MPEG算法,但不能與后者兼容。H.261在實時編碼時比MPEG所占用的CPU運算量少得多,此算法為了優(yōu)化帶寬占用量,引進了在圖像質(zhì)量與運動幅度之間的平衡折中機制,也就是說,劇烈運動的圖像比相對靜止的圖像質(zhì)量要差。因此這種方法是屬于恒定碼流可變質(zhì)量編碼而非恒定質(zhì)量可變碼流編碼。
2.H.263
H.263是國際電聯(lián)ITU-T的一個標(biāo)準(zhǔn)草案,是為低碼流通信而設(shè)計的。但實際上這個標(biāo)準(zhǔn)可用在很寬的碼流范圍,而非只用于低碼流應(yīng)用,它在許多應(yīng)用中可以認(rèn)為被用于取代H.261。H.263的編碼算法與H.261一樣,但做了一些改善和改變,以提高性能和糾錯能力。.263標(biāo)準(zhǔn)在低碼率下能夠提供比H.261更好的圖像效果,兩者的區(qū)別有:(1)H.263的運動補償使用半象素精度,而H.261則用全象素精度和循環(huán)濾波;(2)數(shù)據(jù)流層次結(jié)構(gòu)的某些部分在H.263中是可選的,使得編解碼可以配置成更低的數(shù)據(jù)率或更好的糾錯能力;(3)H.263包含四個可協(xié)商的選項以改善性能;(4)H.263采用無限制的運動向量以及基于語法的算術(shù)編碼;(5)采用事先預(yù)測和與MPEG中的P-B幀一樣的幀預(yù)測方法;(6)H.263支持5種分辨率,即除了支持H.261中所支持的QCIF和CIF外,還支持SQCIF、4CIF和16CIF,SQCIF相當(dāng)于QCIF一半的分辨率,而4CIF和16CIF分別為CIF的4倍和16倍。
1998年IUT-T推出的H.263+是H.263建議的第2版,它提供了12個新的可協(xié)商模式和其他特征,進一步提高了壓縮編碼性能。如H.263只有5種視頻源格式,H.263+允許使用更多的源格式,圖像時鐘頻率也有多種選擇,拓寬應(yīng)用范圍;另一重要的改進是可擴展性,它允許多顯示率、多速率及多分辨率,增強了視頻信息在易誤碼、易丟包異構(gòu)網(wǎng)絡(luò)環(huán)境下的傳輸。另外,H.263+對H.263中的不受限運動矢量模式進行了改進,加上12個新增的可選模式,不僅提高了編碼性能,而且增強了應(yīng)用的靈活性。H.263已經(jīng)基本上取代了H.261。
二、M-JPEG
M-JPEG(Motion- Join Photographic Experts Group)技術(shù)即運動靜止圖像(或逐幀)壓縮技術(shù),廣泛應(yīng)用于非線性編輯領(lǐng)域可精確到幀編輯和多層圖像處理,把運動的視頻序列作為連續(xù)的靜止圖像來處理,這種壓縮方式單獨完整地壓縮每一幀,在編輯過程中可隨機存儲每一幀,可進行精確到幀的編輯,此外M-JPEG的壓縮和解壓縮是對稱的,可由相同的硬件和軟件實現(xiàn)。但M-JPEG只對幀內(nèi)的空間冗余進行壓縮。不對幀間的時間冗余進行壓縮,故壓縮效率不高。采用M-JPEG數(shù)字壓縮格式,當(dāng)壓縮比7:1時,可提供相當(dāng)于Betecam SP質(zhì)量圖像的節(jié)目。
JPEG標(biāo)準(zhǔn)所根據(jù)的算法是基于DCT(離散余弦變換)和可變長編碼。JPEG的關(guān)鍵技術(shù)有變換編碼、量化、差分編碼、運動補償、霍夫曼編碼和游程編碼等
M-JPEG的優(yōu)點是:可以很容易做到精確到幀的編輯、設(shè)備比較成熟。缺點是壓縮效率不高。
此外,M-JPEG這種壓縮方式并不是一個完全統(tǒng)一的壓縮標(biāo)準(zhǔn),不同廠家的編解碼器和存儲方式并沒有統(tǒng)一的規(guī)定格式。這也就是說,每個型號的視頻服務(wù)器或編碼板有自己的M-JPEG版本,所以在服務(wù)器之間的數(shù)據(jù)傳輸、非線性制作網(wǎng)絡(luò)向服務(wù)器的數(shù)據(jù)傳輸都根本是不可能的。
三、MPEG系列標(biāo)準(zhǔn)
MPEG是活動圖像專家組(Moving Picture Exports Group)的縮寫,于1988年成立,是為數(shù)字視/音頻制定壓縮標(biāo)準(zhǔn)的專家組,目前已擁有300多名成員,包括IBM、SUN、BBC、NEC、INTEL、AT&T等世界知名公司。MPEG組織最初得到的授權(quán)是制定用于“活動圖像”編碼的各種標(biāo)準(zhǔn),隨后擴充為“及其伴隨的音頻”及其組合編碼。后來針對不同的應(yīng)用需求,解除了“用于數(shù)字存儲媒體”的限制,成為現(xiàn)在制定“活動圖像和音頻編碼”標(biāo)準(zhǔn)的組織。MPEG組織制定的各個標(biāo)準(zhǔn)都有不同的目標(biāo)和應(yīng)用,目前已提出MPEG-1、MPEG-2、MPEG-4、MPEG-7和MPEG-21標(biāo)準(zhǔn)。
1.MPEG-1標(biāo)準(zhǔn)
MPEG-1標(biāo)準(zhǔn)于1993年8月公布,用于傳輸1.5Mbps數(shù)據(jù)傳輸率的數(shù)字存儲媒體運動圖像及其伴音的編碼。該標(biāo)準(zhǔn)包括五個部分:
第一部分說明了如何根據(jù)第二部分(視頻)以及第三部分(音頻)的規(guī)定,對音頻和視頻進行復(fù)合編碼。第四部分說明了檢驗解碼器或編碼器的輸出比特流符合前三部分規(guī)定的過程。第五部分是一個用完整的C語言實現(xiàn)的編碼和解碼器。
該標(biāo)準(zhǔn)從頒布的那一刻起,MPEG-1取得一連串的成功,如VCD和MP3的大量使用,Windows95以后的版本都帶有一個MPEG-1軟件解碼器,可攜式MPEG-1攝像機等等。
2.MPEG-2標(biāo)準(zhǔn)
MPEG組織于1994年推出MPEG-2壓縮標(biāo)準(zhǔn),以實現(xiàn)視/音頻服務(wù)與應(yīng)用互操作的可能性。 MPEG-2標(biāo)準(zhǔn)是針對標(biāo)準(zhǔn)數(shù)字電視和高清晰度電視在各種應(yīng)用下的壓縮方案和系統(tǒng)層的詳細(xì)規(guī)定,編碼碼率從每秒3兆比特~100兆比特,標(biāo)準(zhǔn)的正式規(guī)范在ISO/IEC13818中。MPEG-2不是MPEG-1的簡單升級,MPEG-2在系統(tǒng)和傳送方面作了更加詳細(xì)的規(guī)定和進一步的完善。MPEG-2特別適用于廣播級的數(shù)字電視的編碼和傳送,被認(rèn)定為SDTV和HDTV的編碼標(biāo)準(zhǔn)。
MPEG-2圖像壓縮的原理是利用了圖像中的兩種特性:空間相關(guān)性和時間相關(guān)性。這兩種相關(guān)性使得圖像中存在大量的冗余信息。如果我們能將這些冗余信息去除,只保留少量非相關(guān)信息進行傳輸,就可以大大節(jié)省傳輸頻帶。而接收機利用這些非相關(guān)信息,按照一定的解碼算法,可以在保證一定的圖像質(zhì)量的前提下恢復(fù)原始圖像。一個好的壓縮編碼方案就是能夠最大限度地去除圖像中的冗余信息。
MPEG-2的編碼圖像被分為三類,分別稱為I幀,P幀和B幀。
I幀圖像采用幀內(nèi)編碼方式,即只利用了單幀圖像內(nèi)的空間相關(guān)性,而沒有利用時間相關(guān)性。P幀和B幀圖像采用幀間編碼方式,即同時利用了空間和時間上的相關(guān)性。P幀圖像只采用前向時間預(yù)測,可以提高壓縮效率和圖像質(zhì)量。P幀圖像中可以包含幀內(nèi)編碼的部分,即P幀中的每一個宏塊可以是前向預(yù)測,也可以是幀內(nèi)編碼。B幀圖像采用雙向時間預(yù)測,可以大大提高壓縮倍數(shù)。
MPEG-2的編碼碼流分為六個層次。為更好地表示編碼數(shù)據(jù),MPEG-2用句法規(guī)定了一個層次性結(jié)構(gòu)。它分為六層,自上到下分別是:圖像序列層、圖像組(GOP)、圖像、宏塊條、宏塊、塊。
MPEG-2標(biāo)準(zhǔn)在廣播電視領(lǐng)域中的主要應(yīng)用如下:
(1)視音頻資料的保存
一直以來,電視節(jié)目、音像資料等都是用磁帶保存的。這種方式有很多弊端:易損,占地大,成本高,難于重新使用。更重要的是難以長期保存,難以查找、難以共享。隨著計算機技術(shù)和視頻壓縮技術(shù)的發(fā)展,高速寬帶計算機網(wǎng)絡(luò)以及大容量數(shù)據(jù)存儲系統(tǒng)給電視臺節(jié)目的網(wǎng)絡(luò)化存儲、查詢、共享、交流提供了可能。
采用MPEG-2壓縮編碼的DVD視盤,給資料保存帶來了新的希望。電視節(jié)目、音像資料等可通過MPEG-2編碼系統(tǒng)編碼,保存到低成本的CD-R光盤或高容量的可擦寫DVD-RAM上,也可利用DVD編著軟件(如Daikin Scenarist NT、Spruce DVDMaestro等)制作成標(biāo)準(zhǔn)的DVD視盤,既可節(jié)約開支,也可節(jié)省存放空間。
(2)電視節(jié)目的非線性編輯系統(tǒng)及其網(wǎng)絡(luò)
在非線性編輯系統(tǒng)中,節(jié)目素材是以數(shù)字壓縮方式存儲、制作和播出的, 視頻壓縮技術(shù)是非線性編輯系統(tǒng)的技術(shù)基礎(chǔ)。目前主要有M-JPEG和MPEG-2兩種數(shù)字壓縮格式。
M-JPEG技術(shù)即運動靜止圖像(或逐幀)壓縮技術(shù),可進行精確到幀的編輯,但壓縮效率不高。
MPEG-2采用幀間壓縮的方式,只需進行I幀的幀內(nèi)壓縮處理,B幀和P幀通過偵測獲得,因此 ,傳輸和運算的數(shù)據(jù)大多由幀之間的時間相關(guān)性得到,相對來說,數(shù)據(jù)量小,可以實現(xiàn)較高的壓縮比。隨著逐幀編輯問題的解決,MPEG-2將廣泛應(yīng)用于非線性編輯系統(tǒng),并大大地降低編輯成本,同時MPEG-2的解壓縮是標(biāo)準(zhǔn)的,不同廠家設(shè)計的壓縮器件壓縮的數(shù)據(jù)可由其他廠家設(shè)計解壓縮器來解壓縮,這一點保證了各廠家的設(shè)備之間能完全兼容。
由于采用MPEG-2 IBP視頻壓縮技術(shù),數(shù)據(jù)量成倍減少,降低了存儲成本,提高了數(shù)據(jù)傳輸速度,減少了對計算機總線和網(wǎng)絡(luò)帶寬的壓力,可采用純以太網(wǎng)組建非線性編輯網(wǎng)絡(luò)系統(tǒng)已成為可能,而在目前以太網(wǎng)是最為成熟的網(wǎng)絡(luò),系統(tǒng)管理比較完善,價格也比較低廉。
基于MPEG-2的非線性編輯系統(tǒng)及非線性編輯網(wǎng)絡(luò)將成為未來的發(fā)展方向。
(3)衛(wèi)星傳輸
MPEG-2已經(jīng)通過ISO認(rèn)可,并在廣播領(lǐng)域獲得廣泛的應(yīng)用,如數(shù)字衛(wèi)星視頻廣播(DVB-S)、DVD視盤和視頻會議等。目前,全球有數(shù)以千萬計的DVB-S用戶,DVB-S信號采用MPEG-2壓縮格式編碼,通過衛(wèi)星或微波進行傳輸,在用戶端經(jīng)MPEG-2衛(wèi)星接收解碼器解碼,以供用戶觀看。此外,采用MPEG-2壓縮編碼技術(shù),還可以進行遠(yuǎn)程電視新聞或節(jié)目的傳輸和交流。
(4)電視節(jié)目的播出
在整個電視技術(shù)中播出是一個承上啟下的環(huán)節(jié),對播出系統(tǒng)進行數(shù)字化改造是非常必要的,其中最關(guān)鍵一步就是構(gòu)建硬盤播出系統(tǒng)。MPEG-2硬盤自動播出系統(tǒng)因編播簡便、儲存容量大、視頻指標(biāo)高等優(yōu)點,而為人們所青睞。但以往MPEG-2播出設(shè)備因非常昂貴,而只有少量使用。隨著MPEG-2技術(shù)的發(fā)展和相關(guān)產(chǎn)品成本的下降,MPEG-2硬盤自動系統(tǒng)播出可望得到普及。
3.MPEG-4標(biāo)準(zhǔn)
運動圖像專家組MPEG 于1999年2月正式公布了MPEG-4(ISO/IEC14496)標(biāo)準(zhǔn)第一版本。同年年底MPEG-4第二版亦告底定,且于2000年年初正式成為國際標(biāo)準(zhǔn)。
MPEG-4與MPEG-1和MPEG-2有很大的不同。MPEG-4不只是具體壓縮算法,它是針對數(shù)字電視、交互式繪圖應(yīng)用(影音合成內(nèi)容)、交互式多媒體(WWW、資料擷取與分散)等整合及壓縮技術(shù)的需求而制定的國際標(biāo)準(zhǔn)。MPEG-4標(biāo)準(zhǔn)將眾多的多媒體應(yīng)用集成于一個完整的框架內(nèi),旨在為多媒體通信及應(yīng)用環(huán)境提供標(biāo)準(zhǔn)的算法及工具,從而建立起一種能被多媒體傳輸、存儲、檢索等應(yīng)用領(lǐng)域普遍采用的統(tǒng)一數(shù)據(jù)格式。
MPEG-4的編碼理念是:MPEG-4標(biāo)準(zhǔn)同以前標(biāo)準(zhǔn)的最顯著的差別在于它是采用基于對象的編碼理念,即在編碼時將一幅景物分成若干在時間和空間上相互聯(lián)系的視頻音頻對象,分別編碼后,再經(jīng)過復(fù)用傳輸?shù)浇邮斩?然后再對不同的對象分別解碼,從而組合成所需要的視頻和音頻。這樣既方便我們對不同的對象采用不同的編碼方法和表示方法,又有利于不同數(shù)據(jù)類型間的融合,并且這樣也可以方便的實現(xiàn)對于各種對象的操作及編輯。例如,我們可以將一個卡通人物放在真實的場景中,或者將真人置于一個虛擬的演播室里,還可以在互聯(lián)網(wǎng)上方便的實現(xiàn)交互,根據(jù)自己的需要有選擇的組合各種視頻音頻以及圖形文本對象。
MPEG-4系統(tǒng)的一般框架是:對自然或合成的視聽內(nèi)容的表示;對視聽內(nèi)容數(shù)據(jù)流的管理,如多點、同步、緩沖管理等;對靈活性的支持和對系統(tǒng)不同部分的配置。
與MPEG-1、MPEG-2相比,MPEG-4具有如下獨特的優(yōu)點:
(1) 基于內(nèi)容的交互性
MPEG-4提供了基于內(nèi)容的多媒體數(shù)據(jù)訪問工具,如索引、超級鏈接、上下載、刪除等。利用這些工具,用戶可以方便地從多媒體數(shù)據(jù)庫中有選擇地獲取自己所需的與對象有關(guān)的內(nèi)容,并提供了內(nèi)容的操作和位流編輯功能,可應(yīng)用于交互式家庭購物,淡入淡出的數(shù)字化效果等。MPEG-4提供了高效的自然或合成的多媒體數(shù)據(jù)編碼方法。它可以把自然場景或?qū)ο蠼M合起來成為合成的多媒體數(shù)據(jù)。
(2)高效的壓縮性
MPEG-4基于更高的編碼效率。同已有的或即將形成的其它標(biāo)準(zhǔn)相比,在相同的比特率下,它基于更高的視覺聽覺質(zhì)量,這就使得在低帶寬的信道上傳送視頻、音頻成為可能。同時MPEG-4還能對同時發(fā)生的數(shù)據(jù)流進行編碼。一個場景的多視角或多聲道數(shù)據(jù)流可以高效、同步地合成為最終數(shù)據(jù)流。這可用于虛擬三維游戲、三維電影、飛行仿真練習(xí)等
(3)通用的訪問性
MPEG-4提供了易出錯環(huán)境的魯棒性,來保證其在許多無線和有線網(wǎng)絡(luò)以及存儲介質(zhì)中的應(yīng)用,此外,MPEG-4還支持基于內(nèi)容的的可分級性,即把內(nèi)容、質(zhì)量、復(fù)雜性分成許多小塊來滿足不同用戶的不同需求,支持具有不同帶寬,不同存儲容量的傳輸信道和接收端。
這些特點無疑會加速多媒體應(yīng)用的發(fā)展,從中受益的應(yīng)用領(lǐng)域有:因特網(wǎng)多媒體應(yīng)用;廣播電視;交互式視頻游戲;實時可視通信;交互式存儲媒體應(yīng)用;演播室技術(shù)及電視后期制作;采用面部動畫技術(shù)的虛擬會議;多媒體郵件;移動通信條件下的多媒體應(yīng)用;遠(yuǎn)程視頻監(jiān)控;通過ATM網(wǎng)絡(luò)等進行的遠(yuǎn)程數(shù)據(jù)庫業(yè)務(wù)等。MPEG-4主要應(yīng)用如下:
(1)應(yīng)用于因特網(wǎng)視音頻廣播
由于上網(wǎng)人數(shù)與日俱增,傳統(tǒng)電視廣播的觀眾逐漸減少,隨之而來的便是廣告收入的減少,所以現(xiàn)在的固定式電視廣播最終將轉(zhuǎn)向基于TCP/IP的因特網(wǎng)廣播,觀眾的收看方式也由簡單的遙控器選擇頻道轉(zhuǎn)為網(wǎng)上視頻點播。視頻點播的概念不是先把節(jié)目下載到硬盤,然后再播放,而是流媒體視頻(streaming video),點擊即觀看,邊傳輸邊播放。
現(xiàn)在因特網(wǎng)中播放視音頻的有:Real Networks公司的 Real Media,微軟公司的 Windows Media,蘋果公司的 QuickTime,它們定義的視音頻格式互不兼容,有可能導(dǎo)致媒體流中難以控制的混亂,而MPEG-4為因特網(wǎng)視頻應(yīng)用提供了一系列的標(biāo)準(zhǔn)工具,使視音頻碼流具有規(guī)范一致性。因此在因特網(wǎng)播放視音頻采用MPEG-4,應(yīng)該說是一個安全的選擇。
(2)應(yīng)用于無線通信
MPEG-4高效的碼率壓縮,交互和分級特性尤其適合于在窄帶移動網(wǎng)上實現(xiàn)多媒體通信,未來的手機將變成多媒體移動接收機,不僅可以打移動電視電話、移動上網(wǎng),還可以移動接收多媒體廣播和收看電視。
(3)應(yīng)用于靜止圖像壓縮
靜止圖像(圖片)在因特網(wǎng)中大量使用,現(xiàn)在網(wǎng)上的圖片壓縮多采用JPEG技術(shù)。MPEG-4中的靜止圖像(紋理)壓縮是基于小波變換的,在同樣質(zhì)量條件下,壓縮后的文件大小約是JPEG壓縮文件的十分之一。把因特網(wǎng)上使用的JPEG圖片轉(zhuǎn)換成MPEG-4格式,可以大幅度提高圖片在網(wǎng)絡(luò)中的傳輸速度。
(4)應(yīng)用于電視電話
傳統(tǒng)用于窄帶電視電話業(yè)務(wù)的壓縮編碼標(biāo)準(zhǔn),如H261,采用幀內(nèi)壓縮、幀間壓縮、減少象素和抽幀等辦法來降低碼率,但編碼效率和圖像質(zhì)量都難以令人滿意。MPEG-4的壓縮編碼可以做到以極低碼率傳送質(zhì)量可以接受的聲像信號,使電視電話業(yè)務(wù)可以在窄帶的公用電話網(wǎng)上實現(xiàn)。
(5)應(yīng)用于計算機圖形、動畫與仿真
MPEG-4特殊的編碼方式和強大的交互能力,使得基于MPEG-4的計算機圖形和動畫可以從各種來源的多媒體數(shù)據(jù)庫中獲取素材,并實時組合出所需要的結(jié)果。因而未來的計算機圖形可以在MPEG-4語法所允許的范圍內(nèi)向所希望的方向無限發(fā)展,產(chǎn)生出今天無法想象的動畫及仿真效果。
(6)應(yīng)用于電子游戲
MPEG-4可以進行自然圖像與聲音同人工合成的圖像與聲音的混合編碼,在編碼方式上具有前所未有的靈活性,并且能及時從各種來源的多媒體數(shù)據(jù)庫中調(diào)用素材。這可以在將來產(chǎn)生象電影一樣的電子游戲,實現(xiàn)極高自由度的交互式操作。
4.MPEG-7標(biāo)準(zhǔn)
MPEG-7標(biāo)準(zhǔn)被稱為“多媒體內(nèi)容描述接口”,為各類多媒體信息提供一種標(biāo)準(zhǔn)化的描述,這種描述將與內(nèi)容本身有關(guān),允許快速和有效的查詢用戶感興趣的資料。它將擴展現(xiàn)有內(nèi)容識別專用解決方案的有限的能力,特別是它還包括了更多的數(shù)據(jù)類型。換而言之,MPEG-7規(guī)定一個用于描述各種不同類型多媒體信息的描述符的標(biāo)準(zhǔn)集合。該標(biāo)準(zhǔn)于1998年10月提出。
MPEG-7的目標(biāo)是支持多種音頻和視覺的描述,包括自由文本、N維時空結(jié)構(gòu)、統(tǒng)計信息、客觀屬性、主觀屬性、生產(chǎn)屬性和組合信息。對于視覺信息,描述將包括顏色、視覺對象、紋理、草圖、形狀、體積、空間關(guān)系、運動及變形等。
MPEG-7的目標(biāo)是根據(jù)信息的抽象層次,提供一種描述多媒體材料的方法以便表示不同層次上的用戶對信息的需求。以視覺內(nèi)容為例,較低抽象層將包括形狀、尺寸、紋理、顏色、運動(軌道)和位置的描述。對于音頻的較低抽象層包括音調(diào)、調(diào)式、音速、音速變化、音響空間位置。最高層將給出語義信息:如“這是一個場景:一個鴨子正躲藏在樹后并有一個汽車正在幕后通過。”抽象層與提取特征的方式有關(guān):許多低層特征能以完全自動的方式提取,而高層特征需要更多人的交互作用。MPEG-7還允許依據(jù)視覺描述的查詢?nèi)z索聲音數(shù)據(jù),反之也一樣。
MPEG-7的目標(biāo)是支持?jǐn)?shù)據(jù)管理的靈活性、數(shù)據(jù)資源的全球化和互操作性。
MPEG-7標(biāo)準(zhǔn)化的范圍包括:一系列的描述子(描述子是特征的表示法,一個描述子就是定義特征的語法和語義學(xué));一系列的描述結(jié)構(gòu)(詳細(xì)說明成員之間的結(jié)構(gòu)和語義);一種詳細(xì)說明描述結(jié)構(gòu)的語言、描述定義語言(DDL);一種或多種編碼描述方法。
在我們的日常生活中,日益龐大的可利用音視頻數(shù)據(jù)需要有效的多媒體系統(tǒng)來存取、交互。這類需求與一些重要的社會和經(jīng)濟問題相關(guān),并且在許多專業(yè)和消費應(yīng)用方面都是急需的,尤其是在網(wǎng)絡(luò)高度發(fā)展的今天,而MPEG-7的最終目的是把網(wǎng)上的多媒體內(nèi)容變成象現(xiàn)在的文本內(nèi)容一樣,具有可搜索性。這使得大眾可以接觸到大量的多媒體內(nèi)容,MPEG-7標(biāo)準(zhǔn)可以支持非常廣泛的應(yīng)用,具體如下:
(1)音視數(shù)據(jù)庫的存儲和檢索;
(2)廣播媒體的選擇(廣播、電視節(jié)目);
(3)因特網(wǎng)上的個性化新聞服務(wù);
(4)智能多媒體、多媒體編輯;
(5)教育領(lǐng)域的應(yīng)用(如數(shù)字多媒體圖書館等);
(6)遠(yuǎn)程購物;
(7)社會和文化服務(wù)(歷史博物館、藝術(shù)走廊等);
(8)調(diào)查服務(wù)(人的特征的識別、辯論等);
(9)遙感;
(10)監(jiān)視(交通控制、地面交通等);
(11)生物醫(yī)學(xué)應(yīng)用;
(12)建筑、不動產(chǎn)及內(nèi)部設(shè)計;
(13)多媒體目錄服務(wù)(如,黃頁、旅游信息、地理信息系統(tǒng)等);
(14)家庭娛樂(個人的多媒體收集管理系統(tǒng)等)。
原則上,任何類型的AV(Audio-Video)材料都可以通過任何類型的查詢材料來檢索,例如,AV材料可以通過視頻、音樂、語言等來查詢,通過搜索引擎來匹配查詢數(shù)據(jù)和MPEG-7的音視頻描述。下面給出幾個查詢例子:
音樂:在鍵盤上彈幾個音符就能得到包含(或近似)要求曲調(diào)的音樂作品列表,或以某種方式匹配音符的圖象,例如,從情感方面。
圖形:在屏幕上畫幾條線就能得到類似圖形、標(biāo)識、表意文字(符號)等的一組圖象。
運動:對一組給定的物體,描述在物體之間的運動和關(guān)系,就會得到實現(xiàn)所描述的時空關(guān)系的動畫列表。
電影拍攝劇本(劇情說明):對給定的內(nèi)容,描述出動作就會得到發(fā)生類似動作的電影拍攝劇本(劇情說明)列表。
四、MPEG-21標(biāo)準(zhǔn)
互聯(lián)網(wǎng)改變了物質(zhì)商品交換的商業(yè)模式,這就是“電子商務(wù)”。新的市場必然帶來新的問題:如何獲取數(shù)字視頻、音頻以及合成圖形等“數(shù)字商品”,如何保護多媒體內(nèi)容的知識產(chǎn)權(quán),如何為用戶提供透明的媒體信息服務(wù),如何檢索內(nèi)容,如何保證服務(wù)質(zhì)量等。此外,有許多數(shù)字媒體(圖片、音樂等)是由用戶個人生成、使用的。這些“內(nèi)容供應(yīng)者”同商業(yè)內(nèi)容供應(yīng)商一樣關(guān)心相同的事情:內(nèi)容的管理和重定位、各種權(quán)利的保護、非授權(quán)存取和修改的保護、商業(yè)機密與個人隱私的保護等。目前雖然建立了傳輸和數(shù)字媒體消費的基礎(chǔ)結(jié)構(gòu)并確定了與此相關(guān)的諸多要素,但這些要素、規(guī)范之間還沒有一個明確的關(guān)系描述方法,迫切需要一種結(jié)構(gòu)或框架保證數(shù)字媒體消費的簡單性,很好地處理“數(shù)字類消費”中諸要素之間的關(guān)系。MPEG-21就是在這種情況下提出的。
制定MPEG-21標(biāo)準(zhǔn)的目的是:(1)將不同的協(xié)議、標(biāo)準(zhǔn)、技術(shù)等有機地融合在一起;(2)制定新的標(biāo)準(zhǔn);(3)將這些不同的標(biāo)準(zhǔn)集成在一起。MPEG-21標(biāo)準(zhǔn)其實就是一些關(guān)鍵技術(shù)的集成,通過這種集成環(huán)境就對全球數(shù)字媒體資源進行透明和增強管理,實現(xiàn)內(nèi)容描述、創(chuàng)建、發(fā)布、使用、識別、收費管理、產(chǎn)權(quán)保護、用戶隱私權(quán)保護、終端和網(wǎng)絡(luò)資源抽取、事件報告等功能。
任何與MPEG-21多媒體框架標(biāo)準(zhǔn)環(huán)境交互或使用MPEG-21數(shù)字項實體的個人或團體都可以看作是用戶。從純技術(shù)角度來看,MPEG-21對于“內(nèi)容供應(yīng)商”和“消費者”沒有任何區(qū)別。MPEG-21多媒體框架標(biāo)準(zhǔn)包括如下用戶需求:(1)內(nèi)容傳送和價值交換的安全性;(2)數(shù)字項的理解;(3)內(nèi)容的個性化;(4)價值鏈中的商業(yè)規(guī)則;(5)兼容實體的操作;(6)其它多媒體框架的引入;(7)對MPEG之外標(biāo)準(zhǔn)的兼容和支持;(8)一般規(guī)則的遵從;(9)MPEG-21標(biāo)準(zhǔn)功能及各個部分通信性能的測試;(10)價值鏈中媒體數(shù)據(jù)的增強使用;(11)用戶隱私的保護;(12)數(shù)據(jù)項完整性的保證;(13)內(nèi)容與交易的跟蹤;(14)商業(yè)處理過程視圖的提供;(15)通用商業(yè)內(nèi)容處理庫標(biāo)準(zhǔn)的提供;(16)長線投資時商業(yè)與技術(shù)獨立發(fā)展的考慮;(17)用戶權(quán)利的保護,包括:服務(wù)的可靠性、債務(wù)與保險、損失與破壞、付費處理與風(fēng)險防范等;(18)新商業(yè)模型的建立和使用。
五、其它壓縮編碼標(biāo)準(zhǔn)
1.Real Video
Real Video是Real Networks公司開發(fā)的在窄帶(主要的互聯(lián)網(wǎng))上進行多媒體傳輸?shù)膲嚎s技術(shù)。
2.WMT
WMT是微軟公司開發(fā)的在互聯(lián)網(wǎng)上進行媒體傳輸?shù)囊曨l和音頻編碼壓縮技術(shù),該技術(shù)已與WMT服務(wù)器與客戶機體系結(jié)構(gòu)結(jié)合為一個整體,使用MPEG-4標(biāo)準(zhǔn)的一些原理。
3.QuickTime
QuickTime是一種存儲、傳輸和播放多媒體文件的文件格式和傳輸體系結(jié)構(gòu),所存儲和傳輸?shù)亩嗝襟w通過多重壓縮模式壓縮而成,傳輸是通過RTP協(xié)議實現(xiàn)的。
標(biāo)準(zhǔn)化是產(chǎn)業(yè)化成功的前提,H.261、H.263推動了電視電話、視頻會議的發(fā)展。早期的視頻服務(wù)器產(chǎn)品基本都采用M——JPEG標(biāo)準(zhǔn),開創(chuàng)視頻非線性編輯時代。MPEG-1成功地在中國推動了VCD產(chǎn)業(yè),MPEG-2標(biāo)準(zhǔn)帶動了DVD及數(shù)字電視等多種消費電子產(chǎn)業(yè),其它MPEG標(biāo)準(zhǔn)的應(yīng)用也在實施或開發(fā)中,Real-Networks的Real Video、微軟公司的WMT以及Apple公司的QuickTime帶動了網(wǎng)絡(luò)流媒體的發(fā)展,視頻壓縮編解碼標(biāo)準(zhǔn)緊扣應(yīng)用發(fā)展的脈搏,與工業(yè)和應(yīng)用同步。未來是信息化的社會,各種多媒體數(shù)據(jù)的傳輸和存儲是信息處理的基本問題,因此,可以肯定視頻壓縮編碼標(biāo)準(zhǔn)將發(fā)揮越來越大的作用。