大數(shù)據(jù)時(shí)代基于中文標(biāo)記的圖像視頻綜合檢索方法研究
掃描二維碼
隨時(shí)隨地手機(jī)看文章
引言
隨著傳統(tǒng)數(shù)據(jù)中心向多媒體數(shù)據(jù)中心的發(fā)展,數(shù)據(jù)中心服務(wù)模式已經(jīng)發(fā)生了翻天覆地的變化。大數(shù)據(jù)時(shí)代的核心特性有兩個(gè)要點(diǎn):一是一切都被記錄,二是一切都被數(shù)字化。隨著大數(shù)據(jù)時(shí)代的來(lái)臨,它帶來(lái)兩個(gè)重大變化:一是數(shù)據(jù)量爆炸性增長(zhǎng),據(jù)統(tǒng)計(jì),最近兩年來(lái)國(guó)內(nèi)各類(lèi)機(jī)房產(chǎn)生的數(shù)據(jù)量大于2010年以前人類(lèi)文明所產(chǎn)生的數(shù)據(jù)量的總和;二是數(shù)據(jù)來(lái)源極其豐富,特別是諸如圖像、視頻等非結(jié)構(gòu)化數(shù)據(jù)所占比例逐年增長(zhǎng)。從存儲(chǔ)方面看,傳統(tǒng)數(shù)據(jù)中心存儲(chǔ)內(nèi)容包括資源信息、業(yè)務(wù)信息、統(tǒng)計(jì)信息、指揮信息等,主要以結(jié)構(gòu)化的數(shù)據(jù)表的形式存在,現(xiàn)在數(shù)據(jù)中心存儲(chǔ)文本、數(shù)字、圖像、視頻、聲音等多種數(shù)據(jù)形式。這些變化對(duì)數(shù)據(jù)中心檢索技術(shù)要求越來(lái)越高,主要體現(xiàn)在:一是檢索載體多樣化?,F(xiàn)代數(shù)據(jù)中心需要綜合利用磁盤(pán)、磁帶等綜合性數(shù)據(jù)庫(kù)。二是檢索手段綜合化。檢索目標(biāo)由單一的文本檢索向文本、圖片、視頻、聲音、地理信息多種目標(biāo)發(fā)展。三是檢索時(shí)機(jī)全域化。新數(shù)據(jù)文件增加不應(yīng)中斷向用戶(hù)的服務(wù),保障24h全天候檢索的可用性。因此,為了更好地利用海量圖像、視頻等非結(jié)構(gòu)化數(shù)據(jù),提高圖像視頻數(shù)據(jù)的檢索效率,同時(shí)提高圖像視頻數(shù)據(jù)的可用性,有必要對(duì)圖像視頻檢索方法進(jìn)行深入研究。
1圖像視頻檢索在大數(shù)據(jù)時(shí)代的意義
多媒體信息包括文本、圖像、音頻、視頻等信息。使用關(guān)鍵詞檢索,只能查詢(xún)到媒體文件對(duì)應(yīng)的文件名等特征,而無(wú)法對(duì)媒體文件內(nèi)容進(jìn)行查詢(xún),所以對(duì)于多媒體信息的查詢(xún)應(yīng)該不同于簡(jiǎn)單的文本信息的查詢(xún)。隨著越來(lái)越多的視頻多媒體形成了海量文檔,急需研究新一代的信息檢索技術(shù)。
現(xiàn)代數(shù)據(jù)中心的發(fā)展具體來(lái)說(shuō),涉及數(shù)字化技術(shù)、超大規(guī)模數(shù)據(jù)庫(kù)技術(shù)、網(wǎng)絡(luò)技術(shù)、多媒體信息處理技術(shù)、信息壓縮與傳送技術(shù)、分布式處理技術(shù)、安全保密技術(shù)、可靠性技術(shù)、數(shù)據(jù)倉(cāng)庫(kù)與聯(lián)機(jī)分析處理技術(shù)、信息抽取技術(shù)、數(shù)據(jù)挖掘技術(shù)、基于內(nèi)容的檢索技術(shù)、自然語(yǔ)言理解技術(shù)等。在眾多技術(shù)門(mén)類(lèi)中,對(duì)視頻圖像的檢索顯得尤為重要。本文主要研究基于內(nèi)容匹配的數(shù)據(jù)中心圖片視頻資源的綜合信息檢索技術(shù),為鐵路、水路、公路、航空、交通保障等領(lǐng)域的數(shù)據(jù)中心建設(shè)以及綜合性基礎(chǔ)性中心多媒體檢索技術(shù)的發(fā)展提供理論參考。
2國(guó)內(nèi)外的研究現(xiàn)狀及動(dòng)態(tài)
國(guó)外基于關(guān)鍵鏡頭關(guān)鍵幀的視頻檢索技術(shù)已經(jīng)發(fā)展了很多年,隨著視頻數(shù)據(jù)急劇增加,圖像視頻檢索已經(jīng)成為一個(gè)新的研究熱點(diǎn)。從第一屆DIAL’04(The first International Workshop on Document Image Analysis for Libraries)開(kāi)始,圖像視頻檢索就一直被當(dāng)做專(zhuān)題來(lái)研究,近年來(lái),數(shù)字圖像視頻檢索受到了極大的關(guān)注,DIAL、ICDAR等每次研討會(huì)議均對(duì)其進(jìn)行專(zhuān)題討論。但是,由于國(guó)外圖片視頻中標(biāo)記大多采用英文形式,而我國(guó)數(shù)據(jù)中心中圖片視頻標(biāo)記是中文的,中英文在筆畫(huà)排列、字詞句構(gòu)成、組織方式等方面差異太大,他們的視覺(jué)特征明顯不同,現(xiàn)有的很多方法無(wú)法直接被我們直接采用。為了研究我國(guó)海量中文圖像數(shù)據(jù)的管理、檢索、利用,因此必須研究具有我國(guó)自主知識(shí)產(chǎn)權(quán)的基于中文標(biāo)記的數(shù)字中心圖像視頻資源綜合檢索方法。
2.1基于OCR的文檔圖像檢索
在海量的視頻圖像數(shù)據(jù)中,其中一部分可進(jìn)行正確的OCR識(shí)別,進(jìn)行上下文標(biāo)記,完全可用傳統(tǒng)信息檢索技術(shù)檢索。對(duì)于各語(yǔ)系而言,其檢索技術(shù)是相通的,只是OCR技術(shù)不同而已,但受到OCR技術(shù)的限制和視頻圖像本身質(zhì)量的影響。在許多情況下,OCR識(shí)別結(jié)果并不盡人意,識(shí)別正確率對(duì)檢索結(jié)果影響很大。目前,主要有兩種容忍O(píng)CR識(shí)別錯(cuò)誤的方法:一是對(duì)查詢(xún)?cè)~進(jìn)行擴(kuò)充,估算OCR轉(zhuǎn)換錯(cuò)誤,并對(duì)OCR誤差詞進(jìn)行檢索;二是采用單詞距離匹配的策略,主要是通過(guò)在矢量空間中進(jìn)行詞與詞的匹配,計(jì)算出查詢(xún)?cè)~與OCR識(shí)別目標(biāo)的距離來(lái)排序。采取這兩種檢索誤差容忍技術(shù)后,檢索正確率明顯提高,但統(tǒng)計(jì)顯示,當(dāng)OCR識(shí)別正確率低于75%時(shí),視頻圖像檢索質(zhì)量將很難達(dá)到用戶(hù)滿(mǎn)意。
2.2基于圖像特征的圖像視頻檢索
視頻資料中,大量的關(guān)鍵幀、鏡頭是不能進(jìn)行OCR識(shí)別的,主要有以下幾個(gè)方面原因:其一是技術(shù)限制。由于OCR技術(shù)本身的局限,對(duì)于非規(guī)則字體、復(fù)雜背景、圖像質(zhì)量差、字符嚴(yán)重形變/扭曲、字符分割不完整等情況,OCR無(wú)能為力。即使能部分識(shí)別正確,但需要大量的人工校正,效率很低。其二是功能限制。對(duì)于簽字或者印章等需要用于確定性的具有法律效力的文件,不適合采用OCR進(jìn)行識(shí)別。例如,史料文獻(xiàn)、名人手跡、重要的人工標(biāo)記與墨跡、書(shū)法書(shū)畫(huà)等也只能以文檔圖像的格式呈現(xiàn)。
基于圖像特征的檢索技術(shù)已經(jīng)被越來(lái)越多的專(zhuān)家學(xué)者所研究。基于圖像特征的檢索過(guò)程與CBIR(ContentBasedImageRetrieval)過(guò)程相似,但技術(shù)迥異。CBIR常用的顏紋理等基本特征不再有效,必須根據(jù)文檔圖像本身特點(diǎn),抽取相應(yīng)圖像視頻特征及規(guī)律進(jìn)行檢索,目前研究主要集中于基于內(nèi)容相似性和基于關(guān)鍵詞檢索?;谖臋n凸顯內(nèi)容相似性的建設(shè)主要是抽取基于文檔全局特征與基于幀圖像的局部特征來(lái)進(jìn)行。全局特征主要有字符紋理統(tǒng)計(jì)、直方圖統(tǒng)計(jì)、字符投影分布、字符行統(tǒng)計(jì)等,而局部特征主要是字符圖像塊的區(qū)域?qū)挾取⑽恢门c面積等。還可將幀頁(yè)面分為多層網(wǎng)格,抽取每個(gè)網(wǎng)格特征,進(jìn)行基于網(wǎng)格的相似性比較。為了克服網(wǎng)絡(luò)尺寸最優(yōu)選擇的一些問(wèn)題,Cesarini、Mairinai等利用基于MXY樹(shù)進(jìn)行檢索,在圖像區(qū)域分割時(shí)建立MXY,綜合全局特征與MXY樹(shù)結(jié)構(gòu)特征形成特征矢量進(jìn)行相似性比較。
2.3基于標(biāo)記的圖像視頻檢索
在基于空域語(yǔ)義上下文的概念標(biāo)注優(yōu)化中,Jiang等人基于概念之間的相關(guān)性學(xué)習(xí)得到一個(gè)語(yǔ)義圖模型,在對(duì)某個(gè)鏡頭進(jìn)行標(biāo)注時(shí),首先得到各個(gè)概念對(duì)于這個(gè)鏡頭的預(yù)測(cè)結(jié)果,然后利用這個(gè)圖模型對(duì)預(yù)測(cè)結(jié)果進(jìn)行平滑優(yōu)化,并且在這個(gè)過(guò)程中考慮數(shù)據(jù)跨域的問(wèn)題,即訓(xùn)練語(yǔ)義圖模型的數(shù)據(jù)和對(duì)之進(jìn)行優(yōu)化的數(shù)據(jù)來(lái)自于不同的域,取得了較好的結(jié)果。Smith等人提出了一種DiscriminativeModelFusion(DMF)方法,該方法將不同概念檢測(cè)子對(duì)鏡頭的輸出概率形成一個(gè)向量,然后以這個(gè)向量為鏡頭特征進(jìn)訓(xùn)練,并預(yù)測(cè)概念標(biāo)注結(jié)果。Jiang等人對(duì)這個(gè)方法進(jìn)行了修改,加入了用戶(hù)提供的標(biāo)注信息。這些方法的問(wèn)題在于,它們受限于語(yǔ)義詞典的大小,只在詞典中的概念數(shù)目較少的時(shí)候證明比較有效。
3基于中文標(biāo)記的數(shù)據(jù)中心視頻圖像資源綜合檢索方法
3.1主要技術(shù)原理
在大數(shù)據(jù)時(shí)代,針對(duì)數(shù)據(jù)中心中文視頻圖像的特征,本文研究提出一種基于中文標(biāo)記的數(shù)據(jù)中心視頻圖像資源綜合檢索方法,主要技術(shù)原理框圖如圖1所示。
圖1基于圖像視頻檢索的數(shù)據(jù)中心存儲(chǔ)體系結(jié)構(gòu)和服務(wù)架構(gòu)
3.2主要方法
好的存儲(chǔ)結(jié)構(gòu)是檢索的前提和關(guān)鍵,也是檢索的方法之一。本文所采用的檢索方法采用一種復(fù)雜應(yīng)用環(huán)境下數(shù)據(jù)中心體系結(jié)構(gòu)和服務(wù)架構(gòu)。
首先,采用特征描述的視頻圖像檢索方式。特征提取是圖像處理中的一個(gè)初級(jí)運(yùn)算,也就是說(shuō)它是對(duì)一個(gè)圖像進(jìn)行的第一個(gè)運(yùn)算處理。它檢查每個(gè)像素來(lái)確定該像素是否代表一個(gè)特征。假如它是一個(gè)更大的算法的一部分,那么這個(gè)算法一般只檢查圖像的特征區(qū)域。作為特征提取的一個(gè)前提運(yùn)算,輸入圖像一般通過(guò)高斯模糊核在尺度空間中被平滑。此后通過(guò)局部導(dǎo)數(shù)運(yùn)算來(lái)計(jì)算圖像的一個(gè)或多個(gè)特征。有時(shí),假如特征提取需要許多的計(jì)算時(shí)間,而可以使用的時(shí)間有限制,一個(gè)高層次算法可以用來(lái)控制特征提取階層,這樣僅圖像的部分被用來(lái)尋找特征。由于許多計(jì)算機(jī)圖像算法使用特征提取作為其初級(jí)計(jì)算步驟,因此有大量特征提取算法被發(fā)展,其提取的特征各種各樣,它們的計(jì)算復(fù)雜性和可重復(fù)性也非常不同。
其次,數(shù)據(jù)中心圖像視頻文檔特征提取和索引建模技術(shù)是高效檢索的關(guān)鍵。如前所述,視頻內(nèi)容本身包含豐富的視覺(jué)上下文信息,這些上下文信息是自然存在的,而不是相互獨(dú)立的,一般可分為兩類(lèi),即空域視覺(jué)上下文信息和時(shí)域視覺(jué)上下文信息??沼蛞曈X(jué)上下文是指視覺(jué)幀內(nèi)部的視覺(jué)信息之間存在的相關(guān)性。本項(xiàng)目針對(duì)空域視覺(jué)上下文信息和時(shí)域視覺(jué)上下文信息進(jìn)行建模,為圖像視頻的快速檢索提供基礎(chǔ)。
4基于中文標(biāo)記的圖像視頻綜合檢索特點(diǎn)
基于中文標(biāo)記的圖像視頻綜合檢索方法主要有以下特點(diǎn)。首先是提出了特征描述方法。對(duì)于一個(gè)給定的視頻鏡頭,在三維網(wǎng)格上進(jìn)行采樣,對(duì)于采樣得到的點(diǎn)進(jìn)行聚類(lèi),形成視覺(jué)詞典,把每個(gè)采樣點(diǎn)映射到特征空間離它最近的那個(gè)視覺(jué)詞。這樣,一個(gè)視頻鏡頭就可以看作是一個(gè)由視覺(jué)詞組成的立方體結(jié)構(gòu)。然后,根據(jù)視覺(jué)詞在立方體結(jié)構(gòu)中的相對(duì)位置,把它們看做一個(gè)視覺(jué)詞的序列,并用一個(gè)擴(kuò)展的馬爾科夫鏈對(duì)之進(jìn)行建模。這樣,視覺(jué)詞在時(shí)空域中的關(guān)系可以用該模型中的狀態(tài)轉(zhuǎn)移矩陣進(jìn)行描述,并和原始的Bag-of-words特征結(jié)合,作為視頻內(nèi)容的特征描述,可以有效提高其區(qū)分不同內(nèi)容視頻的能力。我們把該特征應(yīng)用到兩個(gè)不同的問(wèn)題中,即視頻概念標(biāo)注和動(dòng)作識(shí)別。
其次,提出一種兩階段的視頻概念標(biāo)注優(yōu)化方法。思路大致如下:一方面,分別利用星型結(jié)構(gòu)和鏈?zhǔn)浇Y(jié)構(gòu)的ConditionalRandomFiled(CRF,條件隨機(jī)場(chǎng))對(duì)視頻中的空域語(yǔ)義上下文和時(shí)域語(yǔ)義上下文進(jìn)行建模,并借用其訓(xùn)練預(yù)測(cè)方法完成優(yōu)化過(guò)程。和現(xiàn)有方法相比,本文方法能夠更為準(zhǔn)確地對(duì)概念之間的相互關(guān)系進(jìn)行描述。利用訓(xùn)練集中人工標(biāo)注的語(yǔ)義信息,體現(xiàn)人類(lèi)對(duì)于視頻內(nèi)容和語(yǔ)義概念的理解,該方法能夠有效提高概念標(biāo)注的結(jié)果。由于訓(xùn)練數(shù)據(jù)的局限性和問(wèn)題本身的復(fù)雜性,基于語(yǔ)義上下文的優(yōu)化方法不可能完美地對(duì)概念之間的關(guān)系進(jìn)行建模,因此,本項(xiàng)目提出一種基于半監(jiān)督學(xué)習(xí)的調(diào)整方法,作為基于語(yǔ)義上下文優(yōu)化方法的有效補(bǔ)充:認(rèn)為得分較高的鏡頭被進(jìn)行了正確的標(biāo)注,通過(guò)在視頻鏡頭之間建立圖結(jié)構(gòu),利用視覺(jué)上的相似性,采用半監(jiān)督學(xué)習(xí)的方法用概念標(biāo)注中置信度較高的優(yōu)化結(jié)果對(duì)其余結(jié)果進(jìn)行調(diào)整,能夠進(jìn)一步提高視頻概念標(biāo)注的準(zhǔn)確率。
最后,提出一種基于顏色聚類(lèi)和多幀融合的視頻文字識(shí)別方法。主要思路大致如下:首先,在視頻文字檢測(cè)中,統(tǒng)一考慮了文字區(qū)域圖像的兩個(gè)明顯特征致顏色和密集邊緣,采用近鄰傳播聚類(lèi)算法,基于圖像中邊緣顏色的復(fù)雜程度,自適應(yīng)地把彩色邊緣分解到多個(gè)邊緣子圖中,使得在各個(gè)子圖中檢測(cè)文字區(qū)域更加準(zhǔn)確。其次,在視頻文字增強(qiáng)中,根據(jù)文字筆畫(huà)強(qiáng)度圖,過(guò)濾掉模糊文字區(qū)域,并綜合平均融合和最小值融合,對(duì)在不同視頻幀中檢測(cè)到的,包含相同內(nèi)容的文字區(qū)域圖像進(jìn)行融合,能夠得到背景更為簡(jiǎn)單,筆畫(huà)更為清晰的文字區(qū)域圖像。再次,在視頻文字提取中,一方面,通過(guò)自適應(yīng)地選取具有較高文字對(duì)比度的顏色分量進(jìn)行二值化,能夠得到比現(xiàn)有的方法更好的二值化結(jié)果;另一方面,基于圖像中文字與背景的顏色差異,利用顏色聚類(lèi)進(jìn)行噪聲去除,能夠更為有效地提高文字識(shí)別率。實(shí)驗(yàn)證明本文提出的基于中文標(biāo)記的圖像視頻檢索方法能夠較好地完成視頻圖像檢索。
5結(jié)語(yǔ)
大數(shù)據(jù)時(shí)代數(shù)據(jù)中心檢索載體多樣化、檢索手段綜合化、檢索時(shí)機(jī)全域化,各類(lèi)數(shù)據(jù)中心不僅存儲(chǔ)容量急劇增加,而且視頻、圖像等多媒體數(shù)據(jù)比重逐年增加,因此提高檢索效率,增加數(shù)據(jù)的可用性成為多媒體數(shù)據(jù)中心的重要任務(wù)。多媒體數(shù)據(jù)檢索方式多樣,檢索原理復(fù)雜,目前還處于起步階段,伴隨我國(guó)經(jīng)濟(jì)社會(huì)的快速發(fā)展,大數(shù)據(jù)時(shí)代即將來(lái)臨,各行各業(yè)數(shù)據(jù)的不斷融合,圖像視頻檢索必將大顯身手。
20211115_619282d6d4029__大數(shù)據(jù)時(shí)代基于中文標(biāo)記的圖像視頻綜合檢索方法研究