基于CNN的大規(guī)模可穿戴傳感器運動數(shù)據(jù)分類
本文使用CNN來對可穿戴傳感器收集的大規(guī)模運動數(shù)據(jù)進(jìn)行分類,同時對傳感器數(shù)據(jù)轉(zhuǎn)換為不同的圖像格式輸入做出了比較。最佳性能配置以92.1%的準(zhǔn)確率將50種健身房運動分類。
作者在這里使用的是CNN而不是RNN(常用來處理時序數(shù)據(jù)),是因為每次的重復(fù)運動練習(xí)(如舉啞鈴)是花費的時間是非常短的少于4秒,訓(xùn)練時不需要長時間的記憶。
數(shù)據(jù)集使用的是從PUSH(一種戴在前臂上的可穿戴設(shè)備,用于測量運動員的運動)收集的,該數(shù)據(jù)是由1441名男運動員和307名女運動員的449260個重復(fù)運動練習(xí)組成的49194個集合組成。
因為CNN的輸入長度是固定的,所以將每條序列的長度固定為784。擁有超過784個樣本的代表被簡單地裁剪出來784個樣本,不足的采用zero-paded。
該裝置緊緊地綁在上臂上,分別用內(nèi)置加速度計和陀螺儀測量加速度和方向,因此,時間序列數(shù)據(jù)具有9個特征(Acc x, Acc y,Acc z) in the local frame, (Acc x, Acc y, Acc z) in the world frame and (EulerAngle x,EulerAngle y, EulerAngle z) in the world frame,數(shù)據(jù)采集的頻率為200HZ。
將傳感器數(shù)據(jù)轉(zhuǎn)換成2D形式的輸入有3種方法。不同的圖像格式選擇會導(dǎo)致不同的卷積與不同的相鄰元素,其中可能包括不相關(guān)元素之間的卷積。
把9×784的時間序列數(shù)據(jù)作為一個矩形二維圖像。
將三個不同的特征組(local accelerations,world acceleraTIons,and Euler angles)類比為圖像中的RGB通道,并創(chuàng)建一個3×784×3的張量。
將9×784的時間序列數(shù)據(jù)重新塑造為84×84的方陣如下圖所示。
不同各式的2D輸入對于卷積的影響
對于9*784形式的輸入來說,如果進(jìn)行步長為1的卷積操作(作者稱為9*784 full),Acc_x_local位于圖像的最上面一行,直到最后一層才與位于最下面一行的Euler_Angle_z進(jìn)行卷積,然而Acc_z_world位于圖像的第6行,它與位于第7行的Euler_Angle_x有很多卷積的機會,因為它們是相鄰的。
對于3*784*3 形式的輸入來說,由于卷積分別在3個通道上分別進(jìn)行,這樣不同的組之間就不會發(fā)生卷積。
為了避免9*784形式的輸入在一層中不同組之間的卷積,可以使用卷積步長來避免這種影響(作者稱為9*789 disjointed)。如下圖所示。
左圖中沿著y軸移動步長為1這樣不同的組之間就會發(fā)生卷積。右圖中沿著y軸移動而步長為3,可以避免不同組之間進(jìn)行卷積。
實驗結(jié)果表明,將不同的特征組(local acceleraTIon,world acceleraTIon, Euler angle)作為不同的圖像通道(3*784*3)處理比二維正方形(84*84)圖像或矩形(9*783)圖像效果更好。