當(dāng)前位置:首頁(yè) > 工業(yè)控制 > 《機(jī)電信息》
[導(dǎo)讀]摘要:計(jì)算機(jī)的發(fā)展令文字傳播愈發(fā)廣泛,生活中越來(lái)越多的文字需要錄入電腦,以方便轉(zhuǎn)發(fā)、記錄,為此需要耗費(fèi)大量勞動(dòng)力,盡管當(dāng)今已經(jīng)有許多文字識(shí)別錄入方式,但仍難以達(dá)到日常生活中低精度圖片識(shí)別的標(biāo)準(zhǔn)。現(xiàn)主要采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)解決問(wèn)題,輔以區(qū)域識(shí)別,減少圖片本身帶來(lái)的影響,再用多分類(lèi)方式,實(shí)現(xiàn)部分區(qū)域生成,拆分任務(wù)一一對(duì)應(yīng)識(shí)別,令任務(wù)更加高效。也就是說(shuō),當(dāng)拿到需要處理的圖片后,先將其用不同大小的卷積核處理,進(jìn)行特征的初提取,再將數(shù)據(jù)放入池化層進(jìn)行特征的進(jìn)一步提取,如此往復(fù)循環(huán)后將數(shù)據(jù)進(jìn)行分類(lèi),后經(jīng)處理完成識(shí)別。該方法解決了日常生活中書(shū)寫(xiě)文字識(shí)別的部分難點(diǎn),讓文字錄入更為方便高效,減少了大量的時(shí)間浪費(fèi)。

引言

文字識(shí)別是一項(xiàng)十分必要的技術(shù)。我們的計(jì)算機(jī)處理計(jì)算的能力強(qiáng)大,但強(qiáng)大的計(jì)算能力導(dǎo)致需要的輸入量也隨之增大,而對(duì)于原始數(shù)據(jù)錄入的水平則相形見(jiàn)絀,大量的人力為此消費(fèi),有時(shí)即便浪費(fèi)人力也不能達(dá)到目的,因此有了文字識(shí)別的發(fā)展。從20世紀(jì)50年代到今天,人們已經(jīng)從最開(kāi)始簡(jiǎn)單的光學(xué)識(shí)別發(fā)展到了現(xiàn)在基于深度學(xué)習(xí)的自然文字識(shí)別。

深度學(xué)習(xí)屬于機(jī)器學(xué)習(xí)的新領(lǐng)域,根據(jù)建立類(lèi)似于人腦的層次性的模型,輸入數(shù)據(jù)通過(guò)高層一步一步的信息提取,可以通過(guò)潛在的信息映射出場(chǎng)景建立之間的聯(lián)系。近些年來(lái),人工智能應(yīng)用于各產(chǎn)業(yè)的自動(dòng)生產(chǎn),逐漸代替了人工,開(kāi)辟了新紀(jì)元。在人工生成及制作領(lǐng)域,如何識(shí)別自然場(chǎng)景之下的文字也成為了研究的熱點(diǎn)。

自然場(chǎng)景中的文本識(shí)別不同于普通的文本識(shí)別。普通的文本識(shí)別具有排列簡(jiǎn)單、背景單一等特點(diǎn),識(shí)別起來(lái)比較方便,識(shí)別的算法比較簡(jiǎn)單。自然場(chǎng)景中的文字識(shí)別,譬如書(shū)寫(xiě)體文字及自然生活中的文字,具有背景復(fù)雜、文字出現(xiàn)比較雜亂的特點(diǎn),普通算法無(wú)法完成此類(lèi)文字識(shí)別。所以,采用基于CNN的文字識(shí)別算法抽取文字信息進(jìn)行識(shí)別成為了現(xiàn)在比較流行的趨勢(shì),那么增加預(yù)訓(xùn)練也可以一定程度上幫助提高精確度。

RPN是區(qū)域提取網(wǎng)絡(luò),此類(lèi)網(wǎng)絡(luò)可以抽取圖片的部分區(qū)域(此區(qū)域包含需要判別的文字)。RPN區(qū)域具有分離圖片中的背景及文字的作用,通過(guò)RPN可以提取出文字信息,從而進(jìn)行單個(gè)文字識(shí)別。區(qū)域分為9個(gè)前景/背景的可能性,通過(guò)不同的長(zhǎng)寬比得出感興趣區(qū)域,從而簡(jiǎn)單快捷地分離圖片文字及背景信息。

下面通過(guò)圖1分析文本文字識(shí)別及自然場(chǎng)景下文字識(shí)別的區(qū)別,如圖1左邊所示:文本下的文字識(shí)別可以看出文字排列非常工整,字與字之間的距離也有明顯的標(biāo)定,字的大小比較固定,字體比較單一。如圖1右邊所示:文本比較雜亂,出現(xiàn)順序的毫無(wú)規(guī)律,字的大小不一致,字體不單一,背景也較為雜亂,相對(duì)于文本中的文字識(shí)別,難度大大提升,需要先提取文字區(qū)域再進(jìn)行文字識(shí)別,最終進(jìn)行語(yǔ)言文字內(nèi)容的語(yǔ)義判斷,從而完成整個(gè)識(shí)別過(guò)程,相對(duì)來(lái)說(shuō)較為復(fù)雜。

本文主要描述:(1)卷積神經(jīng)網(wǎng)絡(luò)的意義及主要實(shí)現(xiàn)過(guò)程;(2)區(qū)域提取網(wǎng)絡(luò)如何進(jìn)行前景/背景的識(shí)別,以及訓(xùn)練的方式方法和參數(shù);(3)整體流程,如何通過(guò)卷積神經(jīng)網(wǎng)絡(luò)及區(qū)域提取網(wǎng)絡(luò)進(jìn)行自然場(chǎng)景下的文字識(shí)別;(4)總結(jié)場(chǎng)景文字識(shí)別的挑戰(zhàn)及未來(lái)前景展望。

1卷積神經(jīng)網(wǎng)絡(luò)(CNN)

對(duì)卷積神經(jīng)網(wǎng)絡(luò)的研究可追溯至20世紀(jì)90年代,日本學(xué)者福島邦彥提出的基于生物視覺(jué)皮層的neocognition模型,這是一個(gè)具有深度結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò),并且是最早被提出的深度學(xué)習(xí)算法之一。其中的設(shè)計(jì)能夠進(jìn)行特征提取和篩選,部分實(shí)現(xiàn)了卷積神經(jīng)網(wǎng)絡(luò)中卷積層和池化層的功能,被認(rèn)為是啟發(fā)了卷積神經(jīng)網(wǎng)絡(luò)的開(kāi)創(chuàng)性研究。

現(xiàn)在的卷積神經(jīng)網(wǎng)絡(luò)由輸入層、隱含層和全連接層組成,輸入層完成對(duì)所需數(shù)據(jù)的采集,隱含層完成對(duì)數(shù)據(jù)的提取和整理,全連接層將提取到的特征綜合進(jìn)行判斷,完成最終的輸出。隱含層承擔(dān)了整個(gè)網(wǎng)絡(luò)的核心提取任務(wù),其中包含了卷積層和池化層,在卷積層中,包含卷積核的大小、步長(zhǎng)和填充,這三點(diǎn)決定了輸出的特征,因此可針對(duì)我們需要處理的數(shù)據(jù)采用不同的參數(shù)進(jìn)行處理,以達(dá)到更好的效果;在初步提取到數(shù)據(jù)特征后,輸出的數(shù)據(jù)會(huì)被傳遞至池化層進(jìn)行特征的選擇及信息的篩選,這一步可為全連接層極大地減少計(jì)算量,雖然可能會(huì)影響精度,但更加便捷:當(dāng)數(shù)據(jù)經(jīng)過(guò)池化層處理后,會(huì)送入全連接層處理,全連接層會(huì)將數(shù)據(jù)特征進(jìn)行分類(lèi),完成最終的特征分類(lèi),并最后輸出結(jié)果。

圖2所示為卷積神經(jīng)網(wǎng)絡(luò),可以看出卷積神經(jīng)網(wǎng)絡(luò)是通過(guò)滑動(dòng)窗口(H,W區(qū)域滑動(dòng))對(duì)于二維信息進(jìn)行提取,最后抽取信息得到具體的文字類(lèi)別。圖2左側(cè)VGG16是具體的卷積網(wǎng)絡(luò)的框架,16表示具有16層,VGG還包括VGG9、VGG11、VGG13等等。VGG是一種深度卷積神經(jīng)網(wǎng)絡(luò)的構(gòu)架,是牛津大學(xué)在2014年提出的,具有提取深度特征的能力。從圖2右側(cè)可以看到第五層卷積網(wǎng)絡(luò)的特征提取過(guò)程。

2區(qū)域提取網(wǎng)絡(luò)(RPN)

區(qū)域提取網(wǎng)絡(luò)是一種全卷積神經(jīng)網(wǎng)絡(luò),此類(lèi)網(wǎng)絡(luò)通過(guò)sGD(隨機(jī)提取下降法)進(jìn)行訓(xùn)練。RPN通過(guò)圖片中心及采樣策略訓(xùn)練進(jìn)行小批量訓(xùn)練,樣本中包含各種均勻的正樣本和負(fù)樣本。更新所有待選區(qū)域的損失函數(shù),則會(huì)趨向于負(fù)樣本,因?yàn)樨?fù)樣本會(huì)占據(jù)較大比例,因此我們隨機(jī)選擇圖片中的256個(gè)區(qū)域,小批量學(xué)習(xí)計(jì)算損失函數(shù),其中正樣本及負(fù)樣本比例為1:1。

每個(gè)中心點(diǎn)包含9個(gè)區(qū)域,其中9個(gè)待選區(qū)域包含4個(gè)參數(shù)(長(zhǎng)寬及中心點(diǎn)(%,y))。對(duì)應(yīng)9個(gè)待選區(qū)域還對(duì)應(yīng)具有2個(gè)參數(shù)(0或1對(duì)應(yīng)是背景還是前景)。

圖3表示感興趣區(qū)域提取的具體過(guò)程,通過(guò)模糊文字以及連續(xù)文字,對(duì)于文字周邊進(jìn)行畫(huà)框,找到文字的具體位置,并確定方向畫(huà)出矩形框圖。經(jīng)過(guò)選擇的區(qū)域標(biāo)定不一致,有的選擇單個(gè)字母作為選擇框,有的選擇單詞作為選擇框,但同樣都能得到較好的選擇區(qū)域及文字識(shí)別結(jié)果。

3方法應(yīng)用過(guò)程

在識(shí)別書(shū)寫(xiě)文字的過(guò)程中,首先訓(xùn)練網(wǎng)絡(luò),在前向傳播過(guò)程中,輸入的圖形數(shù)據(jù)經(jīng)過(guò)多層卷積層的卷積和池化處理,提取出特征向量,將特征向量傳入全連接層中,得出分類(lèi)識(shí)別的結(jié)果。當(dāng)輸出結(jié)果與我們的期望值相符時(shí),則輸出。由于采用梯度下降的訓(xùn)練方式,同時(shí)為使訓(xùn)練效果更好,對(duì)用作原始數(shù)據(jù)的圖片進(jìn)行預(yù)處理,預(yù)處理主要包括文本朝向判斷調(diào)整、排噪、版面分析、降噪、行列分割、字符識(shí)別、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)語(yǔ)義檢測(cè)這些方面。圖片的模糊、低精度等問(wèn)題很可能造成網(wǎng)絡(luò)訓(xùn)練的錯(cuò)誤,讓識(shí)別難以進(jìn)行:調(diào)整文字順序,使文字在同一朝向,給圖片進(jìn)行降噪處理,調(diào)整版面等,可以使圖片更精確,網(wǎng)絡(luò)提取的特征更精確,同時(shí)可以減少訓(xùn)練時(shí)間,提高準(zhǔn)確度。RNN語(yǔ)義檢測(cè)的輔助訓(xùn)練也讓我們的網(wǎng)絡(luò)識(shí)別更加高效。

基于卷積神經(jīng)網(wǎng)絡(luò)及區(qū)域提取網(wǎng)絡(luò)的有機(jī)結(jié)合,先通過(guò)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征壓縮以及信息抽取,繼而通過(guò)區(qū)域提取網(wǎng)絡(luò)提取前景信息,再通過(guò)提取出的前景信息判斷具體的文字,最后通過(guò)RNN進(jìn)行語(yǔ)義檢測(cè)進(jìn)而改善網(wǎng)絡(luò)的識(shí)別效率,防止連筆字及不清晰的文字難以通過(guò)單個(gè)字判斷出文字的類(lèi)別。

為減少我們的工作,圖片經(jīng)處理后進(jìn)行數(shù)據(jù)增強(qiáng)以獲得更多初始數(shù)據(jù),主要采用的方法是將現(xiàn)有圖片數(shù)據(jù)進(jìn)行反轉(zhuǎn)、對(duì)稱(chēng)、旋轉(zhuǎn)、放縮、平移等操作后作為新的圖片,神經(jīng)網(wǎng)絡(luò)對(duì)于處理后的圖片會(huì)作為新的數(shù)據(jù)進(jìn)行處理,起到訓(xùn)練的效果。此處有一點(diǎn)需要注意:對(duì)于二次處理的新照片一定要保證對(duì)識(shí)別過(guò)程有貢獻(xiàn),不能修改成為在識(shí)別過(guò)程中一定無(wú)法看到的情況,防止給網(wǎng)絡(luò)增加無(wú)關(guān)數(shù)據(jù),浪費(fèi)計(jì)算資源。數(shù)據(jù)沒(méi)有問(wèn)題后,網(wǎng)絡(luò)的輸出值和我們的期望不符時(shí),則進(jìn)行反向傳播過(guò)程,求出結(jié)果與期望值的誤差,再將誤差一層一層返回,計(jì)算出每一層的誤差,然后進(jìn)行權(quán)值更新。該過(guò)程的主要目的是通過(guò)訓(xùn)練樣本和期望值來(lái)調(diào)整網(wǎng)絡(luò)權(quán)值。當(dāng)網(wǎng)絡(luò)參數(shù)經(jīng)修改,成功輸出我們對(duì)輸入的期望時(shí),網(wǎng)絡(luò)訓(xùn)練完成,投入使用。

4結(jié)語(yǔ)

自然場(chǎng)景下的文字識(shí)別,對(duì)于生活中抓拍圖片的文字識(shí)別、物流單子信息的輸入等復(fù)雜場(chǎng)景下的文字識(shí)別都具有極大的貢獻(xiàn),可以減少人力、物力的消耗。自然場(chǎng)景下的文字識(shí)別具有背景復(fù)雜、文字雜亂等特點(diǎn),所以識(shí)別起來(lái)比較復(fù)雜,準(zhǔn)確率比不上文本中的文字識(shí)別。本文所述基于卷積神經(jīng)網(wǎng)絡(luò)及區(qū)域提取網(wǎng)絡(luò)的文字識(shí)別,能通過(guò)循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行自然語(yǔ)言的處理(進(jìn)一步精修文字,譬如文字中有個(gè)別字模糊或識(shí)別不出,可通過(guò)循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行自然語(yǔ)言處理,理解上下文進(jìn)行文字的猜測(cè)),因而具有較大的現(xiàn)實(shí)意義。此類(lèi)文字識(shí)別不只是簡(jiǎn)單地進(jìn)行文字識(shí)別,同樣進(jìn)行文字的語(yǔ)言精確度的檢測(cè)。在未來(lái)的發(fā)展中,文字識(shí)別會(huì)在各行各業(yè)得到應(yīng)用,從而大大減少人力、物力的消耗,具有巨大的、潛在的建設(shè)性?xún)r(jià)值。

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專(zhuān)欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車(chē)的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車(chē)技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車(chē)工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車(chē)。 SODA V工具的開(kāi)發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車(chē) 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來(lái)越多用戶(hù)希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來(lái)越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開(kāi)幕式在貴陽(yáng)舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱(chēng),數(shù)字世界的話(huà)語(yǔ)權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競(jìng)爭(zhēng)力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營(yíng)商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡(jiǎn)稱(chēng)"軟通動(dòng)力")與長(zhǎng)三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉