高維圖像識別技術(shù)讓PC也能看懂圖片

時間：2020-09-08 13:24:01

關(guān)鍵字：圖像識別文字識別

手機(jī)看文章

掃描二維碼
隨時隨地手機(jī)看文章

[導(dǎo)讀] 　　近年來，計算機(jī)圖形圖像處理技術(shù)獲得突破性的進(jìn)展，個人PC中也涌現(xiàn)出越來越多令人驚嘆的圖形處理軟件，憑借著數(shù)學(xué)界領(lǐng)域的最新研究，個人電腦已經(jīng)開始學(xué)會了“看”圖，讀懂文字

　　近年來，計算機(jī)圖形圖像處理技術(shù)獲得突破性的進(jìn)展，個人PC中也涌現(xiàn)出越來越多令人驚嘆的圖形處理軟件，憑借著數(shù)學(xué)界領(lǐng)域的最新研究，個人電腦已經(jīng)開始學(xué)會了“看”圖，讀懂文字，辨別建筑物。

　　傳統(tǒng)的PC圖像識別技術(shù)主要基于統(tǒng)計學(xué)原理，其主要依靠分析視覺數(shù)據(jù)的特性，并將這些特性借助統(tǒng)計建模等數(shù)學(xué)分析方式提取出來，以最終應(yīng)用到實際的圖像處理中。這種圖像識別技術(shù)仍舊是目前的主流，廣泛用于OCR文字識別、人臉識別、圖像處理等領(lǐng)域。但是這種傳統(tǒng)的數(shù)學(xué)分析方式存在很多局限，比如對圖片的質(zhì)量要求很高，這一問題直到新的數(shù)學(xué)模型出現(xiàn)才得以改善。在2010年5月CHIP的“時尚科技”欄目中，我們就曾經(jīng)向大家介紹過一種PC圖像識別技術(shù)的新進(jìn)展。2009年以華裔澳大利亞籍?dāng)?shù)學(xué)家陶哲軒為代表的一些數(shù)學(xué)家率先發(fā)現(xiàn)了在高維空間中一些原先公認(rèn)很難的（NP-hard）組合問題，可以用一系列高效的凸優(yōu)化算法來解決。而由此產(chǎn)生的數(shù)學(xué)模型可以用來解決目前視覺計算所面臨的難題，而且最終的計算結(jié)果非常理想。

　　微軟亞洲研究院的研究員們當(dāng)時利用這種數(shù)學(xué)思想取得了圖像識別領(lǐng)域的很大突破，使用這種新的數(shù)學(xué)模型帶口罩或墨鏡的人臉甚至都可以被PC讀取和識別。最近，微軟研究院的研究員們在這一技術(shù)領(lǐng)域再次取得了新的進(jìn)展，他們讓PC能夠看“懂”建筑物，或者具備“認(rèn)”字的能力，并糾正扭曲或變形的文字。

　　讀圖從看懂結(jié)構(gòu)開始

　　傳統(tǒng)的二維圖像識別技術(shù)更多地依賴圖像特征點來工作，它首先通過統(tǒng)計學(xué)的方式來獲取圖像中最有代表性的點，之后在遇到新的圖像時會嘗試在其中尋找這些特征點，并將尋找到的點與原來統(tǒng)計得來的特征點進(jìn)行對比。在圖片質(zhì)量比較出色且沒有扭曲的情況下這種技術(shù)往往能工作得很好。但現(xiàn)實情況是，我們在拍攝圖片時，由于光線、所處的位置等諸多原因，最終無法獲得合格的圖像，這也就大大限制了這種圖像識別技術(shù)的發(fā)展。

　　微軟亞洲研究院的研究員們嘗試使用高維的數(shù)學(xué)模型和優(yōu)化工具來解決這個問題。簡單地理解，高維的數(shù)學(xué)模型采用矩陣的模式，可以幫助我們以整體的概念來看待圖像中的物體，而不像傳統(tǒng)技術(shù)那樣只獲取局部特征點，這更像是尋求圖像中物體的整體對稱性和規(guī)則性。例如，通常的樓房窗戶都是平直的矩形，桌子總是四四方方擁有4條腿等。借助這些規(guī)則，即便圖片只能提供有限的信息，PC也能夠更容易地識別出圖片中的物體。在高維數(shù)學(xué)模型中，輸入每一個點的數(shù)據(jù)都可以被用來預(yù)測某種規(guī)則性，因此這種高維的圖像識別技術(shù)可以利用圖片中幾乎每個像素點來獲取圖像中物體的整體規(guī)則結(jié)構(gòu)，這意味著往往只需圖片的一小部分即可完成圖像中物體的矯正和識別。例如，在傳統(tǒng)圖像識別技術(shù)中，100&TImes;100的圖像區(qū)域往往提供不了多少特征點數(shù)據(jù)，而在高維的圖像識別技術(shù)中，這意味著將有近10000個像素點都可以用來獲取圖像的規(guī)則結(jié)構(gòu)信息。

　　從人的角度讀圖

　　借助規(guī)則性和規(guī)律性來識別周圍的環(huán)境和景物是人類的基本技能，實際上一個人從出生開始就在學(xué)習(xí)各種各樣的規(guī)則。比如什么是矩形、什么是圓形，以及桌子一般什么樣、房子一般什么樣等等。而高維圖像識別使得計算機(jī)具備了與人類相同的圖像識別方式。當(dāng)我們看到照片中樓房的窗戶因為拍攝視角的問題而變得傾斜時，并不會認(rèn)為窗戶就真的是傾斜的，我們甚至知道窗戶本來應(yīng)該是方正的，同時我們還能分辨出擋在窗戶前的樹杈并不是窗戶的一部分。類似地，通過建立高維圖像識別的物體規(guī)律，微軟研究院的研究員們已經(jīng)能夠讓PC實現(xiàn)類似的功能，它能夠幫助我們把傾斜的樓宇校正，或者擦去樓宇前方的樹枝。

　　由此我們也可以了解這項技術(shù)的特長與不足，凡是遵循一定規(guī)則的物體或圖像，這項技術(shù)就能夠通過建立規(guī)則的方式對其進(jìn)行識別，凡是規(guī)則性不強(qiáng)的物體或圖像，這項技術(shù)往往就會有較大的局限，例如在一個混亂的花叢中處理某個物體就不是這項技術(shù)能夠勝任的。通常來說，具備規(guī)則性的物體往往是由人所創(chuàng)造，因為從人類最基本的理念上來看，人類相信這個世界是簡單的，且具備規(guī)整結(jié)構(gòu)的，在人類創(chuàng)造各種物品時都會遵循簡單、易用的原則，在這種原則的影響下，沒有規(guī)則性的事物就會被逐步淘汰。規(guī)則并沒有我們想象的那么復(fù)雜，我們并不需要給世界上的每一種物體都建立一個規(guī)則。這里的規(guī)則實際上是一種數(shù)學(xué)結(jié)構(gòu)的分類，很多物體在數(shù)學(xué)結(jié)構(gòu)角度上看是相同的東西，所以我們只需要建立一些重要的通行規(guī)則即可。當(dāng)然也有一些特殊事物要單獨建立規(guī)則，例如文字。

　　文字這種由人類發(fā)明的圖形組合，在人類審美和規(guī)則性思維的調(diào)整下，逐步完善并建立了很好的規(guī)則性，比如橫平豎直以及各種整體或局部的上下左右對稱性等等。無論是英文、中文或是其他文字，基本都具備很強(qiáng)的規(guī)則性，而這種規(guī)則在數(shù)學(xué)上也是能夠歸納和總結(jié)出來的，這樣的圖像在高維空間中有著很低維的內(nèi)在結(jié)構(gòu)。例如，目前除了筆劃很少的漢字規(guī)則性不強(qiáng)外，絕大部分漢字都具備很強(qiáng)的規(guī)則性。

　　總的來說，這種高維圖像識別技術(shù)能夠解決以往我們根本無法解決的一些圖像識別問題，在逐步完善后，它將會徹底改變我們識別和操作圖片的方式。高維圖像識別技術(shù)在識別圖像中的物體之前，用戶要告訴計算機(jī)正在識別的規(guī)則物體的位置。而下一步要做的就是要讓計算機(jī)能夠更聰明地發(fā)現(xiàn)，圖像中哪里存在規(guī)則性、哪里沒有規(guī)則性，以及針對圖像的不同位置使用不同的規(guī)則進(jìn)行修復(fù)等。這種技術(shù)另外的一個努力發(fā)展方向就是提高運(yùn)算效率，比如最終能夠?qū)崿F(xiàn)在智能手機(jī)等終端上實時運(yùn)行。