基于內(nèi)容的信息存取與MPEG-7
一、什么是MPEG-7
現(xiàn)在,我們面臨的將是一個分布的計算環(huán)境,視聽信息在分布環(huán)境中創(chuàng)建、交換、檢索和重用。因此,需要開發(fā)一種視聽信息的“表示(Representation)形式”,它超越基于波形或基于樣本、基于壓縮(如MPEG-1和MPEG-2)甚至是基于對象(如MPEG-4)的表示,這就需要“表示形式”允許某種程度的對信息含義的注釋,同時設(shè)備或計算機(jī)代碼可以傳遞和存取這些注釋。
1996年10月,MPEG開始了一項新的工作,以提供對以上問題的解決方案。這個MPEG家族的新成員被稱為“多媒體內(nèi)容描述接口”(Multimedia Content Description Interface),簡稱為MPEG-7。其目標(biāo)就是產(chǎn)生一種描述多媒體內(nèi)容數(shù)據(jù)的標(biāo)準(zhǔn),滿足實時、非實時以及推-拉應(yīng)用的需求。MPEG并不對應(yīng)用標(biāo)準(zhǔn)化,但可利用應(yīng)用來理解需求并評價技術(shù),它不針對特定的應(yīng)用領(lǐng)域,而是支持盡可能廣泛的應(yīng)用領(lǐng)域。
MPEG-7將擴(kuò)展現(xiàn)有標(biāo)識內(nèi)容的專用方案及有限的能力,包含更多的多媒體數(shù)據(jù)類型。換句話說,它將規(guī)范一組“描述子”,用于描述各種多媒體信息,也將對定義其他描述子以及結(jié)構(gòu)(稱為“描述模式”)的方法進(jìn)行標(biāo)準(zhǔn)化。這些“描述”(包括描述子和描述模式)與其內(nèi)容關(guān)聯(lián),允許快速有效地搜索用戶感興趣的資料。 MPEG-7將標(biāo)準(zhǔn)化一種語言來說明描述模式,即“描述定義語言”。帶有MPEG-7數(shù)據(jù)的 AV資料可以包含靜止圖像、圖形、3D模型、音頻、語音、視頻,以及這些元素如何在多媒體表現(xiàn)中組合的信息。這些通用數(shù)據(jù)類型的特例可以包含面部表情和個人化特性。
MPEG-7的功能與其他MPEG標(biāo)準(zhǔn)互為補(bǔ)充。MPEG-1、 MPEG-2和MPEG-4是內(nèi)容本身的表示,而MPEG-7是有關(guān)內(nèi)容的信息,是比特的比特。
MPEG-3曾經(jīng)存在,但由于其HDTV目標(biāo)能夠用MPEG-2 工具實現(xiàn),因此,該工作終止。按順序推算,下一個標(biāo)準(zhǔn)應(yīng)該是MPEG-5,但是MPEG 決定不遵循序列的邏輯順序,而是選擇了數(shù)字7。MPEG-5和MPEG-6目前還沒有定義。 MPEG-7計劃在2001年9月正式成為國際標(biāo)準(zhǔn)。
二、 MPEG-7中的主要概念
為了更好地了解MPEG-7,我們需要了解MPEG-7中定義的一些概念:
數(shù)據(jù)(Data) 是用MPEG-7描述的視聽資料,不考慮它們的存儲、編碼、顯示、傳輸、媒介或技術(shù)。該定義非常廣泛,包含圖形、靜止圖像、視頻、影片、音樂、語音、聲音、文本和其他相關(guān)的AV媒體。
特征(Feature) 指數(shù)據(jù)的特性。特征本身不能比較,而要用有意義的特征表示(描述子)和它的實例(描述值)。如圖像的顏色、語音的聲調(diào)、音頻的旋律等。
描述子(Descriptor,D) 是特征的表示。它定義特征表示的句法和語義,可以賦予描述值。一個特征可能有多個描述子,如顏色特征可能的描述子有:顏色直方圖、頻率分量的平均值、運(yùn)動的場描述、標(biāo)題文本等。
描述值(Descriptor Value) 是描述子的實例。描述值與描述模式結(jié)合,形成描述。
描述模式(Description Scheme,DS) 說明其成員之間的關(guān)系結(jié)構(gòu)和語義。成員可以是描述子和描述模式。DS和D的區(qū)別是:D僅僅包含基本的數(shù)據(jù)類型,不引用其他D或DS。如對于影片,時間結(jié)構(gòu)化為場景和鏡頭,在場景級包括一些文本描述子,在鏡頭級包含顏色、運(yùn)動和一些音頻描述子。
描述(Description) 一個描述由一個描述模式(結(jié)構(gòu))和一組描述值組成。
編碼的描述(Coded Description) 是對已完成編碼的描述,滿足諸如壓縮效率、差錯恢復(fù)和隨機(jī)存取的相關(guān)要求。
描述定義語言(Description Definition Language,DDL) 是一種允許產(chǎn)生新的描述模式和描述子的語言,允許擴(kuò)展和修改現(xiàn)有的描述機(jī)制。
為了更好地理解這些術(shù)語,請參看圖1。圖中解釋了 MPEG-7在實際系統(tǒng)中的位置。圓角框表示處理工具,矩形框表示靜態(tài)元素,陰影部分包含MPEG-7標(biāo)準(zhǔn)的規(guī)范元素:DDL提供建立描述模式的機(jī)制,然后將描述模式作為基礎(chǔ),產(chǎn)生一個描述。注意,描述的二進(jìn)制表示是不必要的,文本表示足夠了。
三、MPEG-7的范圍
MPEG-7是針對存儲形式(在線、脫機(jī))或流形式(如 Internet上的廣播、推送模型)的應(yīng)用而制定的,并且可以在實時和非實時環(huán)境中操作。一個實時環(huán)境意味著當(dāng)采集資料時,信息是與內(nèi)容相關(guān)的。
圖2是MPEG-7處理鏈的一種高度抽象示意圖,用于解釋MPEG-7的范圍。它包括特征抽取(分析)、描述本身和搜索引擎(應(yīng)用)。為了全面開發(fā) MPEG-7描述的潛力,自動的特征(或是描述子)提取將是極其有用的。但是很清楚,自動提取并不總是可能的,抽象層次越高,自動提取的難度就越大,這時可以采用交互提取工具。但不管它們多么有用,無論是自動的或半自動的,都不包括在標(biāo)準(zhǔn)范圍之內(nèi)。主要原因是不需要對它們標(biāo)準(zhǔn)化以建立互操作性,而是留有競爭的余地。另一個原因是在技術(shù)領(lǐng)域允許采納更好的改進(jìn)方案。搜索引擎也不包含在MPEG-7范圍之內(nèi),它不需要,競爭將產(chǎn)生最好的結(jié)果。
像其他MPEG家族成員一樣,MPEG-7是滿足特定需求的視聽信息的標(biāo)準(zhǔn)表示。MPEG-7建立在其他標(biāo)準(zhǔn)表示的基礎(chǔ)之上,例如PCM、 MPEG-1、MPEG-2和MPEG-4。因此,MPEG-7會引用部分現(xiàn)有標(biāo)準(zhǔn),如在MPEG-4中的形狀描述子也可以用于MPEG-7。相似地,也可以利用在MPEG-1和MPEG-2中的運(yùn)動矢量。
但MPEG-7描述子將不依賴于被描述內(nèi)容的編碼和存儲方式??梢园袽PEG-7的描述附加到模擬電影上去,或與印在紙上的圖片相關(guān)。即使 MPEG-7描述不依賴于資料的編碼表示,但是在某種程度上,該標(biāo)準(zhǔn)建立在MPEG-4之上。 MPEG-4提供對視聽資料以對象方式編碼的方法,這些對象具有一定的時間(同步)和空間 (空間位置和三維感受)關(guān)系。利用MPEG-4編碼,將有可能把描述附加到場景中的元素(對象)上。
MPEG-7可以獨(dú)立于其他MPEG標(biāo)準(zhǔn)使用,在MPEG-4 中定義的表示方式也非常適合MPEG-7標(biāo)準(zhǔn)的建立。
MPEG-7強(qiáng)調(diào)的是提供新的視聽內(nèi)容描述方案。因此,文本不是MPEG-7的描述目標(biāo),但視聽內(nèi)容可以包含或引用文本。因此,MPEG-7將考慮現(xiàn)有的其他標(biāo)準(zhǔn)組織開發(fā)的文本處理方案,并適當(dāng)?shù)刂С诌@些標(biāo)準(zhǔn)。
四、 如何描述多媒體數(shù)據(jù)的內(nèi)容
1.描述原則
在MPEG-7中,考慮了全面的描述原則。
(1) 多重和分層描述
由于描述特征在相應(yīng)的應(yīng)用中具有相應(yīng)的含義,對于不同的用戶領(lǐng)域和不同的應(yīng)用,描述特征將是不同的。
這意味著相同的資料可以使用不同類型的特征進(jìn)行描述,以適應(yīng)具體的應(yīng)用領(lǐng)域。這里涉及到多重描述和分層描述的問題。在描述上,MPEG-7 允許不同的顆粒度,提供不同的鑒別級別。
多重描述就是在多媒體數(shù)據(jù)生成處理的各階段,支持對相同資料進(jìn)行多重描述的能力,并可以把描述附加到相同資料的多份拷貝上。
分層描述基于多媒體資料的抽象級別。分層機(jī)制可以允許在不同的抽象級別上描述多媒體內(nèi)容。抽象級別與特征抽取的方式有關(guān),許多低級特征可以全自動地抽取,而高級特征則需要更多的人工交互。另外,還可以從不同的應(yīng)用需求角度來描述媒體資料,例如從子對象的角度、運(yùn)動分析的序列角度、視頻的情節(jié)結(jié)構(gòu)等角度描述多媒體內(nèi)容。
描述模式支持不同描述子的分層表示,第N層描述是 N-1層描述的增強(qiáng)、精煉或補(bǔ)充,以便查詢能有效地一層一層地處理,支持高效的查詢。
(2) 關(guān)系描述
用描述模式來表達(dá)描述子之間的各種關(guān)系,允許描述子在多個描述模式中使用。
MPEG-7支持描述子與不同時間范圍相關(guān)聯(lián),可以是層次型的,即描述子與整個數(shù)據(jù)和部分時間子集關(guān)聯(lián);或順序型的,描述子與時間段順序關(guān)聯(lián)。
(3) 支持查詢方面
支持音頻、視覺或其他描述子在交叉模式下的查詢,如允許基于視覺描述的查詢?nèi)z索音頻數(shù)據(jù)或相反的過程。
描述模式支持描述子的優(yōu)先級,以便更有效地處理查詢,同時優(yōu)先級可以反映信任或可靠級。另外,還可以支持描述子作為句柄,直接引用數(shù)據(jù),操縱多媒體資料。
2.多媒體特征類型
MPEG-7支持各種類型的多媒體特征,如:
N維時空特征 對于空間類型,從微觀上看,是對象的紋理和形狀,從宏觀上看,是對象的空間關(guān)系和表現(xiàn)空間;時間類型,指對象隨時間變化的軌跡,如音樂區(qū)段的持續(xù)時間等。
客觀特征 反映視聽數(shù)據(jù)本身具備的特性。如對象的顏色、形狀、紋理、音頻頻率等。
主觀特征 人對視聽數(shù)據(jù)的主觀感知。如對情緒(快樂、憤怒)和風(fēng)格的描述。
產(chǎn)品特征 如記錄作者、生產(chǎn)者、導(dǎo)演等信息。
合成信息 包括場景合成、編輯信息、用戶的喜好等。
概念 用于描述事件和活動等概念。
在許多情況下,利用文本信息作為描述是可取的。但必須注意到,有用的描述盡可能獨(dú)立于語言范疇,采用清楚的描述形式,如用作者、影片、地名的文本形式。
除了內(nèi)容的描述,還需要包含其他類型有關(guān)多媒體數(shù)據(jù)的信息:
形式 如編碼模式、數(shù)據(jù)大小。該信息幫助確定資料是否對用戶是“可讀”的。
存取資料的條件 可以包含版權(quán)、許可證和授權(quán)信息以及價格數(shù)據(jù)。
類別 可以包含父等級,用于歸入預(yù)定的類。
到其他相關(guān)資料的鏈 支持其他信息與數(shù)據(jù)的關(guān)聯(lián)。
上下文 資料記錄的場合,如“1996年奧運(yùn)會男子200 米障礙決賽” 中描述的時間和地點。
交互活動 支持交互活動工具,允許說明與描述相關(guān)的交互活動。如與廣告相關(guān)的遠(yuǎn)程購物中的交互。
MPEG-7數(shù)據(jù)可以物理上與相關(guān)的AV資料在一起或在相同的數(shù)據(jù)流或在相同的存儲系統(tǒng)中,但描述也可以放在全球的任何其他地方。當(dāng)內(nèi)容和它的描述不在一個地方時,需要鏈接AV資料和它們的MPEG-7描述的機(jī)制,這些鏈應(yīng)該是雙向的。
3. 視覺數(shù)據(jù)的描述
MPEG-7具體對視覺方面的描述子和描述模式有以下方面的要求:
(1) 特征類型
視覺描述允許以下特征(與查詢中使用的信息類型有關(guān)):顏色、視覺對象、紋理、輪廓(草圖)、形狀、靜止和動態(tài)圖像、體積、空間關(guān)系(相對于圖像和圖像序列中的對象空間和拓?fù)潢P(guān)系,這個關(guān)系是空間合成關(guān)系)、運(yùn)動(如視頻鏡頭中的運(yùn)動,用于利用時間合成信息來檢索等方面)、變形(如對象的彎曲)、視覺對象的源和它的特性(如源對象、源事件、源屬性、事件、事件屬性等)、模型(如MPEG-4 SNHC)。
(2) 利用描述進(jìn)行數(shù)據(jù)可視化
MPEG-7數(shù)據(jù)描述應(yīng)該容許被索引數(shù)據(jù)或多或少地粗略可視化。
(3) 可視數(shù)據(jù)的格式
支持以下可視數(shù)據(jù)格式:數(shù)字視頻和電影(例如MPEG- 1/2/4)、模擬視頻和電影、電子形式的靜態(tài)圖像(如JPEG)或紙上的圖像、圖形、3D模型以及與視頻關(guān)聯(lián)的編輯數(shù)據(jù)。
(4) 可視數(shù)據(jù)類型
可以是自然視頻、靜態(tài)圖像、圖形、動畫、三維模型、編輯信息。
4.聽覺數(shù)據(jù)的描述
同樣,對音頻數(shù)據(jù)的描述子和描述模式有以下要求:
(1) 特征類型
頻率輪廓線、音頻對象、音色、和聲、頻率特征、振幅包絡(luò)、時間結(jié)構(gòu)(包括節(jié)奏)、文本內(nèi)容(語音或歌詞)、聲波近似值(通過哼唱一段旋律或發(fā)出一種聲音效果來生成)、原型聲音(典型的用于示例查詢)、空間結(jié)構(gòu)(用于多通道聲源,如立體聲、5.1通道等,每個聲道有特定的映像)、聲源和它的特性(例如源對象、源時間、源屬性、事件、事件屬性和典型的關(guān)聯(lián)場景)、模型(如MPEG-4 SAOL)。
(2) 描述數(shù)據(jù)的聽覺化
類似視覺數(shù)據(jù)的要求。
(3) 聽覺數(shù)據(jù)格式
數(shù)字音頻(如MPEG-1音頻、CD)、模擬音頻(如錄音帶介質(zhì))、MIDI(包括一般的MIDI和Karaoke格式)、基于模型的音頻、產(chǎn)品數(shù)據(jù)。
(4) 聽覺數(shù)據(jù)類
聲音軌跡(自然音頻場景)、音樂、原子聲音效果(如掌聲)、語音、符號音頻表示(MIDI、SNHC音頻)、混音信息(包括效果)。
五、 多媒體研究與MPEG-7
MPEG-7將標(biāo)準(zhǔn)化各種類型多媒體信息的描述,但它不包含描述子/特征的提取,也不規(guī)范搜索引擎和其他使用這些描述的程序。因此,圍繞 MPEG-7,在多媒體信息存取方面,以下工作可以進(jìn)一步開展:
1.存取接口
研究通用的和與應(yīng)用相關(guān)的多媒體信息查詢接口。例如在鍵盤上演奏幾個音符來查詢音樂、用“尖叫的剎車聲音”查找出汽車追逐的場景;在屏幕上畫一些線段,獲得一組包含相似圖形、標(biāo)志和符號的圖像;定義對象的顏色和紋理,獲得與你選擇的特征相似的圖像;對于給定的一組對象,描述運(yùn)動和對象之間的關(guān)系,獲得一組動態(tài)圖像,包含描述的時空關(guān)系;在給定內(nèi)容條件下,描述情節(jié),并獲得多個相似情節(jié)發(fā)生的場景,等等。另外一些值得考慮的問題是:如何組合這些查詢;如何在查詢過程中引入交互和優(yōu)先級;如何設(shè)計一種查詢語言;如何構(gòu)造瀏覽和可視化視圖,以建立更有效和可靠的多媒體信息存取接口。
2.特征提取和檢索引擎
自動和半自動的特征提取方法。這對大規(guī)模的多媒體數(shù)據(jù)管理是非常有價值的。這里把特征提取和檢索引擎放在一起討論是因為兩者的研究在檢索效率和有效性方面是緊密聯(lián)系在一起的,即檢索有效性使用戶和系統(tǒng)得到查找的東西而不是其他;檢索效率使用戶或系統(tǒng)快速得到所要的結(jié)果。這需要研究者探討更能代表媒體數(shù)據(jù)內(nèi)容的特征(便于區(qū)分),以及高效的索引結(jié)構(gòu)和算法。
3.廣泛的多媒體應(yīng)用研究
MPEG-7不僅僅用于多媒體信息的檢索,更能廣泛地用于其他與多媒體信息內(nèi)容管理相關(guān)的領(lǐng)域。許多應(yīng)用和應(yīng)用領(lǐng)域?qū)腗PEG-7標(biāo)準(zhǔn)中獲得好處。在MPEG-7推薦的應(yīng)用中實際上蘊(yùn)涵了許多值得研究的課題。