當前位置:首頁 > 嵌入式 > 嵌入式硬件
[導讀]本文結(jié)合GDTW核函數(shù)和聯(lián)機手寫識別樣本的特征向量的特點,引入新的控制參數(shù)優(yōu)化GDTW核函數(shù)的計算。實驗結(jié)果表明,本文提出的優(yōu)化方法不僅減少了支持向量的數(shù)目,而且提高了GDTW-SVM運行效率。

0 前言

隨著智能手機和平板電腦等無輸入鍵盤電子設備的流行,聯(lián)機手寫識別的研究吸引了越來越多的關注。而手寫簽名驗證和基于3D加速度傳感器的姿態(tài)識別、手寫識別等新應用形式的出現(xiàn),也為聯(lián)機手寫識別的研究注入了新的活力。

支持向量機(Support Vector Machine,SVM)是在統(tǒng)計學習理論的基礎上發(fā)展起來的新一代分類識別算法,使用核函數(shù)方法將非線性可分的特征向量映射到高維空間,計算最大化分類間隔的最優(yōu)分類超平面。在文本分類、語音識別、手寫識別、曲線擬合等領域,SVM已經(jīng)有比較成熟的應用。但是,一般的核函數(shù)要求不同樣本的特征向量的維數(shù)相同,限制了SVM在語音識別和聯(lián)機手寫識別領域的進一步發(fā)展。為此,Bahlmann等人使用彈性距離計算算法--DTW算法--構造了GDTW核函數(shù),進而提出GDTW-SVM算法。GDTW-SVM的聯(lián)機手寫識別實驗結(jié)果表明,GDT W-SVM取得了可媲美隱馬爾科夫模型、神經(jīng)網(wǎng)絡等分類算法的識別率,并且與使用后來提出的基于其它彈性距離計算構造的核函數(shù)的SVM相比,性能不相伯仲。

本文結(jié)合GDTW核函數(shù)和聯(lián)機手寫識別樣本的特征向量的特點,引入新的控制參數(shù)優(yōu)化GDTW核函數(shù)的計算。實驗結(jié)果表明,本文提出的優(yōu)化方法不僅減少了支持向量的數(shù)目,而且提高了GDTW-SVM運行效率。

1 聯(lián)機手寫識別過程

1.1 聯(lián)機手寫識別流程介紹

聯(lián)機手寫識別的過程與通用模式識別的過程基本相同,由數(shù)據(jù)采集和預處理、特征提取、分類識別、后處理四個步驟組成。

在數(shù)據(jù)采集和預處理階段,首先使用傳感器采集原始物理信息,比較常見的是加速度、速度、位移、起筆和落筆;然后,對原始信息進行傳感器矯正、去噪等預處理。

特征提取是手寫識別的重要步驟之一,對分類器的設計和分類結(jié)果有著重要的影響,選擇合適的特征不僅可以提高識別率,也可以節(jié)省計算存儲空間、運算時間、特征提取費用。聯(lián)機手寫識別中比較常見特征提取方法有加速度、位移、DCT變換等。

分類識別是手寫識別的核心階段,大多數(shù)分類器在實際分類應用之前,需要使用訓練樣本對分類器進行訓練,不斷地修正特征提取方法和方案、分類器的判決規(guī)則和參數(shù)。目前,分類識別的訓練階段需要人工干預以達到最佳的識別率。

一些識別系統(tǒng)在分類識別之后使用后處理進一步提高識別率。例如,數(shù)字“1”和小寫字母“1”在很多情況下難以分辨,但是在后處理階段結(jié)合上下文信息,決定當前字符是數(shù)字“1”還是小寫字母“1”。

1.2 聯(lián)機手寫識別實驗

本文聯(lián)機手寫識別實驗采用了Bahlmann等人和Bothe等人使用的方法。所使用的樣本數(shù)據(jù)庫是免費的聯(lián)機手寫數(shù)據(jù)庫UJIpenchars2。它采用Toshiba M400 Tablet PC收集,包含60個書寫者的共11640個手寫樣本。這些樣本包含ASCII字符、拉丁字符和西班牙字符,而每個字符包含80個訓練樣本和140個測試樣本。每個樣本由一劃或多劃組成,數(shù)據(jù)庫提供每個筆劃的坐標序列。

坐標序列由等時間間隔采集的筆尖的水平坐標xi和垂直坐標yi組成。而在本文實驗中,樣本的坐標序列不經(jīng)過任何去噪等預處理,直接對每個坐標點,使用字符的重心(μx,μy)和垂直坐標的方差σy計算列向量

式(1)中,ang是求虛數(shù)相角的函數(shù)。每個字符樣本的特征向量是T=(t1,…,tNT),其中,NT是采集的坐標點數(shù)目,即特征向量的維數(shù),每個字符樣本的NT可以不相同。

本文的聯(lián)機手寫識別實驗假設每個字符不需要分析其上下文即可完成識別,所以,特征提取之后使用本文所述的分類算法進行分類識別,并且將其輸出結(jié)果作為最終識別結(jié)果,不經(jīng)過任何后處理。

2 GDTW-SVM算法

2.1 支持向量機

假設線性分類器對輸入的特征向量x={x1,x2,…xn}(n是樣本數(shù)目),輸出Y={y1,y2,…,yn}其中,xi,I RN,N是特征向量的維數(shù):yi∈{-1,1}, yi=-1表示樣本(xi,yi)屬于第一類,yi=1表示樣本(xi,yi)屬于另一類。該線性分類器的分類決策為

y(+b)≥1 (2)

式(2)中(w,b)確定分類超平面+b=0。

SVM以最小化結(jié)構風險為目標,計算使得訓練樣本集到分類超平面的距離最大化的最優(yōu)分類超平面。其等價于對式(2)求解凸二次規(guī)劃問題。

即尋找使平均距離最小的最優(yōu)對齊路徑。DTW距離越小,T和R所代表的樣本越相似??梢允褂脛討B(tài)規(guī)劃(Dynamic Programming)算法計算最優(yōu)對齊路徑和DTW距離。

圖1給出了最優(yōu)對齊路徑和DTW距離的示例,其中,上半部分是字符樣本的繪圖,順次是“oocae”;下半部分是各個字符樣本與第一個字符樣本的最優(yōu)對齊路徑和DTW距離。

Bahlmann等人使用DTW距離代替高斯核函數(shù)(6)中的歐幾里德距離‖X-Z‖p的計算(取p=2),構造了GDTW核函數(shù)

KGRBF(X,Z)=exp(-y·DTW(X,Z)) (8)

他們的聯(lián)機手寫識別實驗的結(jié)果和Bothe等人的實驗結(jié)果表明,GDTW-SVM取得了比GDTW-SVM和k近鄰算法(k-Nearest Neighbor,kNN)更高的識別率,而且在不同聯(lián)機手寫識別數(shù)據(jù)庫子集的識別實驗中,與基于其它彈性距離計算的核函數(shù)的SVM相比,各有優(yōu)劣且識別率的差值在0.3%以內(nèi)。

到字母n的所有訓練樣本最優(yōu)對齊路徑,并規(guī)整到80’80矩陣;

(2)將所有計算結(jié)果疊加后得到n-n最優(yōu)對齊路徑疊加圖;

(3)繪制疊加圖,即圖2的第一幅圖,圖中像素點灰度越高,代表越多最優(yōu)對齊路徑經(jīng)過此點。同理,繪制n-m最優(yōu)對齊路徑疊加圖和m-m最優(yōu)對齊路徑疊加圖,分別為圖2的第二和第三幅圖所示。

從圖2可以看到,兩個相同或相似字符的最優(yōu)對齊路徑集中在對角區(qū)域:由于n的不同樣本、m的不同樣本的起筆寫法比收筆寫法隨意,第一和第三幅圖的對角區(qū)域的左下角比較寬;n和m的最優(yōu)對齊路徑在對角區(qū)域中分布較均勻,且第二幅圖顯示對角區(qū)域的中部有明顯的低灰度區(qū)域。

假設訓練樣本可以代表聯(lián)機手寫字符的特征,則可以通過僅計算對角區(qū)域中的最優(yōu)對齊路徑來優(yōu)化GDTW核函數(shù)。計算兩個樣本T=(t1,…,tNT)和R=(r1,…,rNR)的GDTW核函數(shù)時,假定二者屬于相同的字符類,那么二者的差別不大,因此,在GDTW核函數(shù)計算中引入?yún)?shù)k和τ

式(9)中l(wèi)bottom,ltop,lleft,lright如圖3所示。引入?yún)?shù)k和τ之后,不在NT×NR的矩陣中求解式(8),而是在k和τ約束的區(qū)域(即圖3中兩條虛線所夾的對角區(qū)域)中求解,計算最優(yōu)對齊路徑。

從直觀的角度看,參數(shù)k和τ減少了最優(yōu)對齊路徑的計算空間,因此,修改后的GDTW核函數(shù)的計算時間減少。而另外一方面,如果參數(shù)τ保持不變(如τ=0.6),參數(shù)k越小,最優(yōu)對齊路徑的前端的計算被約束在越小的空間,迫使其“最優(yōu)”對齊路徑的計算選擇非最優(yōu)對齊路徑,即參數(shù)k是兩個字符樣本頭部的相識程度的權重;類似地,參數(shù)τ是兩個字符樣本尾部的相識程度的權重。參數(shù)k和τ的權重作用對于如數(shù)字“0”和“6”等相似字符的分類有重要意義。

4 實驗結(jié)果與分析

本文主要針對阿拉伯數(shù)字樣本集和英文字母樣本集進行識別實驗,阿拉伯數(shù)字樣本集、英文小寫字母樣本集和英文大寫字母樣本集分開識別。實驗環(huán)境是Matlab R2010a,所使用的SVM工具包是Matlab SVM Toolbox。

分類實驗采用Leave-One-Out的交叉驗證策略:依次從樣本集中取出一個字符的訓練樣本標記為第一類,將剩余字符的訓練樣本標記為第二類,用標記后的訓練樣本訓練GDTW-SVM;使用樣本集中的所有測試樣本測試GDTW-SVM的識別率。

使用未優(yōu)化GDTW-SVM重復分類識別10次,取10次實驗結(jié)果的平均值作為未優(yōu)化GDTW-SVM的識別結(jié)果;其次,優(yōu)化GDTW-SVM的參數(shù)(K,τ)分別取(0.2,0.5)、(0.2,0.2)和(0.5,0.5),分別重復分類識別10次且取10次識別結(jié)果的平均值作為使用該組參數(shù)的優(yōu)化GDTW-SVM的識別結(jié)果,最終取三組識別結(jié)果中的最優(yōu)識別結(jié)果作為優(yōu)化GDTW-SVM的識別結(jié)果;以上實驗中,γ=1.9。

表1是阿拉伯數(shù)字和英文字母的識別結(jié)果對比。其中,英文字母數(shù)目較多,因此,僅給出平均識別結(jié)果。優(yōu)化后的GDTW-SVM和未優(yōu)化的GDTW-SVM的實驗結(jié)果對比顯示:參數(shù)k和τ的引入不僅使字符識別的錯誤率基本保持不變,同時,訓練時間減少13~25%、測試時間減少29~39%、支持向量的數(shù)目也減少3.0~7.6%。

5 結(jié)論

本文提出了在GDTW核函數(shù)中引入?yún)?shù)k和τ,約束GDTW最優(yōu)對齊路徑的計算空間,然后構造GDTW-SVM分類器。實驗結(jié)果表明,優(yōu)化后的GDTW-SVM分類器的識別率與未優(yōu)化的分類器的識別率基本相同;同時,支持向量數(shù)目減少,計算時間有13%~39%的減少,有利于GDTW-SVM分類器的聯(lián)機手寫識別的應用和推廣。

本站聲明: 本文章由作者或相關機構授權發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務中斷的風險,如企業(yè)系統(tǒng)復雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務連續(xù)性,提升韌性,成...

關鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關鍵字: 華為 12nm EDA 半導體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權最終是由生態(tài)的繁榮決定的。

關鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務引領增長 以科技創(chuàng)新為引領,提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強核心競爭優(yōu)勢...

關鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術學會聯(lián)合牽頭組建的NVI技術創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術創(chuàng)新聯(lián)...

關鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關鍵字: BSP 信息技術
關閉
關閉