基于物聯(lián)網(wǎng)的信息數(shù)據(jù)與多媒體信息檢索
掃描二維碼
隨時(shí)隨地手機(jī)看文章
引言
在科學(xué)技術(shù)和信息經(jīng)濟(jì)的發(fā)展中,信息無(wú)時(shí)不在,無(wú)處不在。隨著全球信息化和信息網(wǎng)絡(luò)共享,即物聯(lián)網(wǎng)時(shí)代的到來(lái),人們發(fā)現(xiàn)在海量的信息環(huán)境中,信息的査找和檢索變得越來(lái)越困難。傳統(tǒng)的信息檢索已不能滿足經(jīng)濟(jì)時(shí)代人們對(duì)信息資源的需求,數(shù)字圖書館的出現(xiàn)從根本上改變了傳統(tǒng)信息資源檢索的不足之處。
數(shù)字圖書館不僅僅是傳統(tǒng)圖書館的數(shù)字化,而且是來(lái)源于極其豐富的物聯(lián)網(wǎng)資源庫(kù),數(shù)字圖書館通過(guò)對(duì)各種信息資源的深加工和合理、有效的信息組織、可使之成為永久、有序的知識(shí)源泉。同時(shí),通過(guò)各種各樣的服務(wù),數(shù)字圖書館將成為人們生活中不可缺少的重要信息來(lái)源。
1 多媒體管理系統(tǒng)
多媒體數(shù)據(jù)管理系統(tǒng)是數(shù)字圖書館信息系統(tǒng)的基礎(chǔ)構(gòu)架,可對(duì)電子圖書、音頻、視頻、圖像等多媒體數(shù)字資源進(jìn)行有效管理,是一個(gè)有效管理的數(shù)字對(duì)象集和服務(wù)集。服務(wù)集是與存儲(chǔ)、發(fā)現(xiàn)、檢索和保存數(shù)字對(duì)象相關(guān)的服務(wù)功能集??梢?,基于物聯(lián)網(wǎng)的多媒體管理系統(tǒng)在數(shù)字圖書館的信息檢索中起著非常重要的作用。
1.1 多媒體信息管理
數(shù)字圖書館信息包括文本、圖像、音頻和全運(yùn)動(dòng)視頻等多媒體數(shù)據(jù)的基本類型。多媒體信息管理面臨的第一個(gè)問(wèn)題是多媒體信息的存儲(chǔ)。多媒體信息的存儲(chǔ)需要巨大的空間,采用分層存儲(chǔ)管理的方法能進(jìn)行快速檢索;多媒體信息管理的第二個(gè)問(wèn)題是多媒體信息檢索。對(duì)于海量信息,檢索的準(zhǔn)確和速度非常需要元信息,即索引信息。對(duì)于聲音、視頻等媒體的檢索,其編制索引的能力尤為重要。
1.2 多媒體數(shù)據(jù)庫(kù)的分布式管理
多媒體數(shù)據(jù)庫(kù)由大量不同類型的多媒體對(duì)象組成。在數(shù)字圖書館需要多媒體數(shù)據(jù)庫(kù)支持的應(yīng)用中,可將數(shù)值、文本、超文本以及超媒體文檔中的文本與圖像、音頻、視頻對(duì)象分開存儲(chǔ),這樣可使大型數(shù)據(jù)效果達(dá)到最佳。
多媒體數(shù)據(jù)庫(kù)是一個(gè)分布式、異構(gòu)的多數(shù)據(jù)庫(kù)系統(tǒng),可以存儲(chǔ)和管理大規(guī)模的多媒體數(shù)據(jù)。構(gòu)成系統(tǒng)的節(jié)點(diǎn)服務(wù)器通過(guò)局部的、基本的多媒體對(duì)象管理以及分層的、全局和局部混合的元信息管理和多媒體對(duì)象唯一標(biāo)識(shí)的名錄服務(wù),為在Internet上的應(yīng)用提供存儲(chǔ)、發(fā)現(xiàn)、檢索和保存多媒體對(duì)象的可靠、有效地服務(wù)功能。
1.3 多媒體應(yīng)用系統(tǒng)的組成
多媒體應(yīng)用系統(tǒng)由應(yīng)用軟件、海量多媒體數(shù)據(jù)管理系統(tǒng)、用戶界面代理和網(wǎng)絡(luò)組成。其中,海量多媒體數(shù)據(jù)管理系統(tǒng)可存儲(chǔ)和管理多媒體對(duì)象內(nèi)容,并提供與存儲(chǔ)、發(fā)現(xiàn)、檢索和保存多媒體對(duì)象內(nèi)容相關(guān)的服務(wù)。具體的說(shuō),它由多媒體對(duì)象服務(wù)器、索引服務(wù)器、句柄系統(tǒng)組成。
多媒體對(duì)象服務(wù)器上的多媒體數(shù)據(jù)包括文本、圖像、音頻、視頻等,這些信息必須存儲(chǔ)在所有用戶都能訪問(wèn)到的網(wǎng)絡(luò)資源上,此系統(tǒng)資源稱為對(duì)象服務(wù)器。服務(wù)器的數(shù)目取決于應(yīng)用系統(tǒng)所支持的數(shù)據(jù)對(duì)象類型,如:文檔數(shù)據(jù)庫(kù)服務(wù)器;文檔圖像和靜止視頻;全運(yùn)動(dòng)視頻服務(wù)器等,應(yīng)用時(shí)可根據(jù)需要選擇組合。
對(duì)象服務(wù)器的基本服務(wù)包括存儲(chǔ)不同的數(shù)據(jù)類型、根據(jù)客戶請(qǐng)求傳輸數(shù)據(jù)、數(shù)據(jù)對(duì)象的分層存儲(chǔ)功能、數(shù)據(jù)備份、復(fù)制數(shù)據(jù)對(duì)象時(shí)服務(wù)器之間高速的數(shù)據(jù)傳輸。實(shí)現(xiàn)對(duì)象服務(wù)器的數(shù)據(jù)庫(kù)系統(tǒng)可支持査詢、瀏覽、檢索、創(chuàng)建和存儲(chǔ)、更新等數(shù)據(jù)庫(kù)的基本操作。對(duì)于多媒體對(duì)象而言,存儲(chǔ)操作還附帶有它的動(dòng)作(如所找到對(duì)象的拷貝)。下列三種典型的數(shù)據(jù)庫(kù)管理系統(tǒng)是服務(wù)器的實(shí)現(xiàn)基礎(chǔ):其一是擴(kuò)展現(xiàn)有的關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng),用大二進(jìn)制對(duì)象支持各種多媒體對(duì)象。二是把關(guān)系數(shù)據(jù)庫(kù)中的二進(jìn)制典型擴(kuò)展為類和繼承的概念,以支持這些面向?qū)ο筇匦缘臄?shù)據(jù)量管理系統(tǒng)并提供對(duì)象程序設(shè)計(jì)前端擴(kuò)展,以便成為對(duì)象關(guān)系數(shù)據(jù)庫(kù);三是使用純數(shù)據(jù)庫(kù)。
索引服務(wù)器是關(guān)于多媒體對(duì)象的元信息庫(kù),用于發(fā)現(xiàn)信息。元數(shù)據(jù)就是“說(shuō)明數(shù)據(jù)的數(shù)據(jù)”。例如,標(biāo)題、作者、主題、標(biāo)識(shí)符和位置等,都是關(guān)于多媒體對(duì)象的元信息,根據(jù)這些元數(shù)據(jù)就能査到所需要的多媒體對(duì)象。在大規(guī)模多媒體數(shù)據(jù)的范圍建立合理分層的元信息庫(kù),對(duì)于多媒體對(duì)象的査詢、檢索是必不可少的。
句柄系統(tǒng)由于其海量多媒體數(shù)據(jù)分布式的存儲(chǔ)和管理具有更大的規(guī)模范圍,具有跨地區(qū)、跨庫(kù)的性質(zhì),故數(shù)據(jù)的存儲(chǔ)、管理和性能提出了進(jìn)一步的挑戰(zhàn)。數(shù)字對(duì)象是數(shù)字圖書館的基本單元,它存放在數(shù)據(jù)倉(cāng)庫(kù)中,因此,在對(duì)象數(shù)據(jù)庫(kù)和元信息庫(kù)之上,還需要一個(gè)高層的分布式信息管理系統(tǒng),它可提供數(shù)字圖書館資源的全局名字服務(wù)。
句柄系統(tǒng)包括一個(gè)開放協(xié)議,一個(gè)名字空間和一個(gè)參考實(shí)現(xiàn)。按照協(xié)議,這個(gè)分布式的計(jì)算機(jī)系統(tǒng)將存儲(chǔ)數(shù)字資源的名字,即句柄,并通過(guò)該系統(tǒng)快速地將這些名字解析為定位、訪問(wèn)和在其他方式利用這些資源時(shí)所需要的信息。
2 多媒體數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)是數(shù)字圖書館信息存儲(chǔ)和管理的基礎(chǔ),是多媒體信息內(nèi)容的載體,可用來(lái)存儲(chǔ)和管理多媒體元信息以及為某些搜索引擎提供必要地支持。多媒體對(duì)象數(shù)據(jù)庫(kù)從邏輯功能的角度強(qiáng)調(diào)對(duì)信息資源內(nèi)容,即多媒體對(duì)象的管理。采用面向?qū)ο蠹夹g(shù)有助于實(shí)現(xiàn)多媒體數(shù)據(jù)的有效存儲(chǔ)和管理。多媒體數(shù)據(jù)庫(kù)的發(fā)展和應(yīng)用是多媒體特性和面向?qū)ο蠹夹g(shù)逐漸成熟的必然。
2.1 多媒體數(shù)據(jù)庫(kù)的特征
多媒體數(shù)據(jù)庫(kù)的主要特點(diǎn)之一就是信息數(shù)據(jù)量巨大,跟常規(guī)數(shù)據(jù)相比,數(shù)據(jù)量可高達(dá)幾十萬(wàn)倍。如一個(gè)100MB的硬盤可以存放一個(gè)中等規(guī)模的常規(guī)數(shù)據(jù)庫(kù),且同一空間只能存放10分鐘的電視節(jié)目。
其次是數(shù)據(jù)模型復(fù)雜,由于常規(guī)數(shù)據(jù)都是不可再分的原子數(shù)據(jù),數(shù)據(jù)結(jié)構(gòu)簡(jiǎn)單明了。多媒體數(shù)據(jù)則對(duì)應(yīng)一個(gè)復(fù)雜對(duì)象,即包含多媒體本身(一段視頻、一張圖片),同時(shí)還包含多媒體數(shù)據(jù)的信息(多媒體的元信息)等。
再就是數(shù)據(jù)長(zhǎng)度不固定,因?yàn)槌R?guī)數(shù)據(jù)項(xiàng)一般都比較小,一般采用定長(zhǎng)記錄存儲(chǔ)常規(guī)數(shù)據(jù),存取方便,存儲(chǔ)結(jié)構(gòu)簡(jiǎn)單清晰。由于多媒體世界的數(shù)據(jù)量大小是可變的,無(wú)法預(yù)先估計(jì),因而不可能用定長(zhǎng)記錄來(lái)存儲(chǔ)多媒體數(shù)據(jù)。
該數(shù)據(jù)庫(kù)聲音與數(shù)據(jù)要同步,在視頻文件中一般都含有聲音數(shù)據(jù),二者的嚴(yán)格同步是高質(zhì)量視頻媒體傳送的重要保證。
此外,就是數(shù)據(jù)傳送的連續(xù)性,多媒體數(shù)據(jù)無(wú)論是聲音媒體還是視頻媒體,都要求連續(xù)傳送或輸出,否則將導(dǎo)致嚴(yán)重失真,影響效果。
最后是數(shù)據(jù)定義及操作用傳統(tǒng)SQL語(yǔ)言難以實(shí)現(xiàn),傳統(tǒng)書籍可用規(guī)范關(guān)系表示,并且可方便地定義并施行各種標(biāo)準(zhǔn)操作,如投影、選擇、聯(lián)接和各種集合運(yùn)算,從而可為用戶提供簡(jiǎn)明的數(shù)據(jù)視圖以及簡(jiǎn)單方便而功能強(qiáng)大的SQL語(yǔ)言。而多媒體數(shù)據(jù)的復(fù)雜性決定了其描述語(yǔ)言、數(shù)據(jù)操作語(yǔ)言或存儲(chǔ)結(jié)構(gòu)、存取路徑的復(fù)雜性。傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)很難實(shí)現(xiàn)多媒體數(shù)據(jù)庫(kù)的管理。
2.2 面向?qū)ο蠹夹g(shù)
對(duì)象是面向?qū)ο蠹夹g(shù)中的核心概念,任何實(shí)體都能稱為對(duì)象。在面向?qū)ο蟮臄?shù)據(jù)庫(kù)系統(tǒng)中,對(duì)象是數(shù)據(jù)庫(kù)的基本單元。
類是面向?qū)ο蠹夹g(shù)中的重要概念,類是一組有共同特性的相似對(duì)象的抽象,類可將該組對(duì)象的共同特性集中起來(lái),以說(shuō)明該組對(duì)象的能力和性質(zhì)。在面向?qū)ο髷?shù)據(jù)庫(kù)系統(tǒng)中,類的概念和傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)中關(guān)系的概念類似。
對(duì)于數(shù)據(jù)庫(kù)的封裝和信息隱蔽性來(lái)說(shuō),封裝性在面向?qū)ο蠹夹g(shù)中是對(duì)象的封裝性,是用戶所能看到的只能是對(duì)象的接口提供的界面,它可有效地實(shí)現(xiàn)消息隱蔽。
復(fù)合和繼承是面向?qū)ο蠹夹g(shù)中兩種類間關(guān)系。復(fù)合關(guān)系對(duì)應(yīng)客觀世界中事物之間的部分整體關(guān)系;繼承關(guān)系對(duì)應(yīng)客觀世界中事物之間的一般特殊關(guān)系。兩種關(guān)系均可從不同程度上實(shí)現(xiàn)代碼復(fù)用。
多態(tài)性和動(dòng)態(tài)綁定中的多態(tài)性是面向?qū)ο蠹夹g(shù)中的重要特性,一般含義是某一論域中的元素可有多種解釋。動(dòng)態(tài)綁定是對(duì)象技術(shù)的另一個(gè)重要特征,它可使具有多種解釋的論域元素在程序運(yùn)行中選擇準(zhǔn)確地解釋成為可能。多態(tài)和動(dòng)態(tài)綁定也使得面向?qū)ο髷?shù)據(jù)庫(kù)系統(tǒng)的數(shù)據(jù)訪問(wèn)的透明性成為可能。2.3面向?qū)ο蠹夹g(shù)在多媒體數(shù)據(jù)庫(kù)中的應(yīng)用
根據(jù)面向?qū)ο蟮母拍?,多媒體對(duì)象除了多媒體數(shù)據(jù)本身和多媒體元信息以外,還應(yīng)包含多媒體數(shù)據(jù)本身和多媒體元信息以上的操作。并且對(duì)于不同的媒體應(yīng)該定義不同類型的操作。例如對(duì)于電子圖書可定義前一頁(yè)、下一頁(yè)、下一章等操作;對(duì)于音頻/視頻可定義快進(jìn)、快退、暫停等操作。這些數(shù)據(jù)和操作對(duì)于用戶而言是透明的,用戶不必知道多媒體對(duì)象的具體存放格式和位置以及操作的具體實(shí)現(xiàn)機(jī)制。通過(guò)多媒體對(duì)象的對(duì)外接口可實(shí)現(xiàn)對(duì)多媒體對(duì)象的控制。通過(guò)多媒體對(duì)象可解決其數(shù)據(jù)量巨大和長(zhǎng)度不固定所帶來(lái)的問(wèn)題,另外對(duì)象機(jī)制所帶來(lái)的信息隱蔽也有助于解決版權(quán)保護(hù)、資源復(fù)制等問(wèn)題。
繼承和組裝是客觀世界中實(shí)體間的一般特殊關(guān)系和部分整體關(guān)系,多媒體對(duì)象以及它們之間的關(guān)系就形成了多媒體數(shù)據(jù)模型。
多媒體對(duì)象對(duì)數(shù)據(jù)和方法的封裝,對(duì)于保證視頻、音頻數(shù)據(jù)同步性和連續(xù)性具有一定的作用。
多媒體對(duì)象數(shù)據(jù)庫(kù)不一定僅應(yīng)用一種或同型的數(shù)據(jù)庫(kù)系統(tǒng),也可以是多種異構(gòu)的數(shù)據(jù)庫(kù)系統(tǒng),多媒體數(shù)據(jù)的有效存儲(chǔ)和管理應(yīng)該將多媒體數(shù)據(jù)本身和多媒體元信息兩部分同時(shí)考慮進(jìn)去。以便于實(shí)現(xiàn)基于內(nèi)容的檢索和全文檢索在應(yīng)用中的實(shí)現(xiàn)。
3 多媒體內(nèi)容處理技術(shù)
多媒體內(nèi)容的處理分為3大部分:內(nèi)容獲取、內(nèi)容描述和內(nèi)容操縱。也可將其看成是內(nèi)容處理的三個(gè)步驟,即先對(duì)原始媒體進(jìn)行處理并提取內(nèi)容,然后用標(biāo)準(zhǔn)形式對(duì)它們進(jìn)行描述,以支持各種內(nèi)容的操縱。其內(nèi)容處理方式如圖1所示。
圖1中,內(nèi)容獲取(Populating)就是通過(guò)對(duì)各種內(nèi)容的分析和處理而獲得媒體內(nèi)容的過(guò)程。多媒體數(shù)據(jù)具有時(shí)空特性,內(nèi)容的一個(gè)重要成分是其空間和時(shí)間結(jié)構(gòu)。內(nèi)容的結(jié)構(gòu)化(Structuring)就是分割(Segmenting)出圖像對(duì)象、視頻的時(shí)間結(jié)構(gòu)、運(yùn)動(dòng)對(duì)象,以及這些對(duì)象之間的關(guān)系。特征抽取(Extrac-tion)就是提取顯著的區(qū)分特征和人的視覺(jué)(Visual)、聽覺(jué)(Auditory)方面的感知特征來(lái)表示媒體和媒體對(duì)象的性質(zhì)。
內(nèi)容描述(Description)就是描述在以上過(guò)程中獲取的內(nèi)容。目前.MPEG-7專家組正在制定多媒體內(nèi)容描述標(biāo)準(zhǔn)。該標(biāo)準(zhǔn)主要采用描述子(Descrip-tion)和描述模式(Scheme)來(lái)分別描述媒體的特性及其關(guān)系。
內(nèi)容操縱(Manipulating)就是針對(duì)內(nèi)容的用戶操作和應(yīng)用。有許多這方面的名詞和術(shù)語(yǔ)。其中査詢(Query)是面向用戶的術(shù)語(yǔ),多用于數(shù)據(jù)庫(kù)操作;檢索(Retrieval)是在索引(Index)支持下的快速信息獲取方式;搜索(Search)常用于Internet的搜索引擎,含有搜尋的意思,又有在大規(guī)模信息庫(kù)中搜尋信息的含義;摘要(Summarization,Excerpt)是對(duì)多媒體中的時(shí)基媒體(如視頻和音頻)的一種特殊的操作。現(xiàn)在已經(jīng)熟知了文獻(xiàn)摘要的含義,而在內(nèi)容技術(shù)支持下,也可以對(duì)視頻和音頻媒體進(jìn)行摘要,獲得一目了然的全局視圖和概要。同樣,用戶可以通過(guò)瀏覽(Browsing)操作,來(lái)線性或非線性地存取結(jié)構(gòu)化的內(nèi)容。另外,基于內(nèi)容的技術(shù)不僅僅用在多媒體信息的檢索和搜索方面;檢索僅僅是信息存取的一個(gè)方面。過(guò)濾(Filtering)就是與檢索相反的一種信息存取方式。用過(guò)濾技術(shù)可以實(shí)現(xiàn)個(gè)性化的信息服務(wù)。
4 未來(lái)主要研究的問(wèn)題
基于物聯(lián)網(wǎng)的多媒體信息處理是綜合的多特征檢索技術(shù)。多媒體具有各種視覺(jué)和聽覺(jué)特征以及其他時(shí)間和空間關(guān)系。而且同一種特征具有不同的表示方法。例如同樣是顏色特征,可以有直方圖特征、顏色距、顏色集、主顏色等多種特征表示法,它們可從不同的角度表示媒體的特征,而如何有機(jī)地組織這些多種特征,使應(yīng)用能夠調(diào)用合適的特征和特征表示來(lái)支持査詢,并按照用戶的査詢要求合并各種特征的檢索結(jié)果,是未來(lái)值得研究的問(wèn)題。
綜合利用兩種和多種媒體的特征,容易達(dá)到較高的檢索率。因此,今后的研究還包括如何綜合利用多種異構(gòu)特征來(lái)支持用戶的査詢?各種單一特征的査詢結(jié)果如何融合?如何利用特征之間的互補(bǔ)能力提高檢索效率?如何既考慮一般性特征,又考慮特定領(lǐng)域的特征等等。
綜合還意味著釆納其他學(xué)科領(lǐng)域的成果,如傳統(tǒng)的基于文本的信息檢索技術(shù)、知識(shí)發(fā)現(xiàn)、人工智能等領(lǐng)域中的方法,像布爾檢索模型、多個(gè)異構(gòu)特征査詢表達(dá)和檢索執(zhí)行、知識(shí)庫(kù)、分類和聚類算法、用戶交互行為的機(jī)器學(xué)習(xí)等。這里需要說(shuō)明的是,基于內(nèi)容的檢索系統(tǒng)要充分利用文本、關(guān)鍵字和其他客觀屬性?;趦?nèi)容檢索系統(tǒng)并不排斥這些常規(guī)的檢索途徑,相反,要充分利用現(xiàn)有的文本檢索功能并集成到基于內(nèi)容的檢索系統(tǒng)中,以便向用戶提供完備的檢索能力。
5 結(jié)語(yǔ)
總之,多媒體信息檢索技術(shù)是一門綜合了數(shù)字視頻/圖像處理、語(yǔ)音識(shí)別/語(yǔ)言處理、多媒體數(shù)據(jù)庫(kù)、模式識(shí)別、人工智能等學(xué)科的計(jì)算機(jī)應(yīng)用技術(shù)。隨著這些學(xué)科的發(fā)展,多媒體信息檢索技術(shù)會(huì)不斷成熟完善,對(duì)社會(huì)信息化產(chǎn)生更加巨大的推動(dòng)作用。