桂林電子科技大學(xué)仇洪冰團(tuán)隊(duì)提出一種基于深度強(qiáng)化學(xué)習(xí)的可信無(wú)人機(jī)地理路由協(xié)議DTGR
基于深度強(qiáng)化學(xué)習(xí)的無(wú)人機(jī)可信地理位置路由協(xié)議>>
專家意見(jiàn):該文提出了一種基于深度強(qiáng)化學(xué)習(xí)的可信無(wú)人機(jī)地理路由協(xié)議DTGR,為無(wú)人機(jī)自組網(wǎng)提供了高效可靠的網(wǎng)絡(luò)通信方案。
具體而言,使用新的信任度度量和更新方式,減少通信過(guò)程中的檢測(cè)開(kāi)銷。然后結(jié)合下一跳的狀態(tài)特征構(gòu)建MDP模型,并根據(jù)信任度設(shè)計(jì)了獎(jiǎng)勵(lì)函數(shù),最后訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)最優(yōu)路由決策。DTGR能夠在包含異常節(jié)點(diǎn)的場(chǎng)景中降低端到端時(shí)延、提升包遞交率,優(yōu)化網(wǎng)絡(luò)性能。
總體而言,論文結(jié)構(gòu)合理,格式規(guī)范,闡述清楚,工作具有創(chuàng)新性。
研究背景與動(dòng)機(jī)
隨著無(wú)人機(jī)硬件和通信技術(shù)的飛速發(fā)展,無(wú)人機(jī)變得更靈活、健壯和低成本。無(wú)人機(jī)的應(yīng)用也變?cè)絹?lái)越廣泛。多無(wú)人機(jī)通過(guò)自組網(wǎng)的方式協(xié)同通信可以高效的處理復(fù)雜的任務(wù)并且具有更高的可擴(kuò)展性。
路由協(xié)議作為無(wú)人機(jī)通信網(wǎng)絡(luò)的重要一環(huán),存在高移動(dòng)性、網(wǎng)絡(luò)拓?fù)渥兓l繁、異常節(jié)點(diǎn)的挑戰(zhàn),從而造成的丟包和時(shí)延的增加,嚴(yán)重的影響了路由的性能。
傳統(tǒng)的和啟發(fā)式的無(wú)人機(jī)路由協(xié)議無(wú)法更好適應(yīng)復(fù)雜的飛行環(huán)境和多變的通信任務(wù),因此基于深度強(qiáng)化學(xué)習(xí)的無(wú)人機(jī)路由協(xié)議成為目前熱門的路由研究方向。然而目前基于深度強(qiáng)化學(xué)習(xí)的無(wú)人機(jī)路由協(xié)議主要致力于根據(jù)不同的優(yōu)化指標(biāo)學(xué)習(xí)下一跳,從而來(lái)提升網(wǎng)絡(luò)性能,卻沒(méi)有考慮異常節(jié)點(diǎn)對(duì)網(wǎng)絡(luò)性能造成的潛在影響。
為了在非完全可信的網(wǎng)絡(luò)中感知異常節(jié)點(diǎn),其中有一些主流研究方案采用節(jié)點(diǎn)信任度衡量節(jié)點(diǎn)的異常程度,然而這些方法在通信過(guò)程中檢測(cè),引入了額外的檢測(cè)開(kāi)銷,并且需要在決策前更新節(jié)點(diǎn)的信任度,降低了網(wǎng)絡(luò)性能。
為了解決上述的問(wèn)題,本文提出了一種基于深度強(qiáng)化學(xué)習(xí)的無(wú)人機(jī)可信地理位置路由協(xié)議(DTGR)。每個(gè)節(jié)點(diǎn)通過(guò)可信第三方提供、更新節(jié)點(diǎn)的信任度,降低了評(píng)估開(kāi)銷。結(jié)合目標(biāo)節(jié)點(diǎn)的地理位置、鄰居拓?fù)湫畔⒆鳛闋顟B(tài)特征,將路由選擇過(guò)程建模成馬爾可夫決策過(guò)程,然后使用DRL算法進(jìn)行更智能決策,從而提升網(wǎng)絡(luò)性能。
系統(tǒng)模型和提出路由協(xié)議
1.信任度模型
在存在異常節(jié)點(diǎn)的無(wú)人機(jī)網(wǎng)絡(luò)中,可以用節(jié)點(diǎn)信任度來(lái)反映了節(jié)點(diǎn)的服務(wù)能力,它是一個(gè)標(biāo)量。它用來(lái)評(píng)估鄰居在通信過(guò)程中出現(xiàn)積極或者消極行為的概率,引入可信第三方提供節(jié)點(diǎn)的信任度,使用理論與真實(shí)的時(shí)延偏差d和丟包率h作為信任度的評(píng)估因子,因此節(jié)點(diǎn)的信任度T定義為
2.該文提出的路由協(xié)議
該文提出的基于深度強(qiáng)化學(xué)習(xí)的可信地理路由協(xié)議(DTGR),其主要架構(gòu)如圖1所示
圖1 DTGR協(xié)議架構(gòu)
首先無(wú)人機(jī)網(wǎng)絡(luò)中每個(gè)節(jié)點(diǎn)會(huì)通過(guò)信標(biāo)周期的廣播信標(biāo),并維護(hù)自己的鄰居表。
鄰居表包含節(jié)點(diǎn)的鄰居的編號(hào)、信任度、地理位置和兩跳鄰居拓?fù)湫畔ⅰ?/span>
兩跳鄰居拓?fù)湫畔⒌哪康氖亲尞?dāng)前轉(zhuǎn)發(fā)節(jié)點(diǎn)能夠評(píng)估兩跳鄰居到終點(diǎn)的可達(dá)性,預(yù)測(cè)下一跳為空洞區(qū)域或孤立節(jié)點(diǎn)的概率。
同時(shí)在數(shù)據(jù)包轉(zhuǎn)發(fā)過(guò)程中,記錄以下額外信息:源節(jié)點(diǎn),上一跳和終點(diǎn)的編號(hào)和位置。并且維護(hù)一個(gè)已訪問(wèn)的節(jié)點(diǎn)集。從而避免環(huán)路。
然后借助上述構(gòu)建的鄰居表和數(shù)據(jù)包記錄的額外信息,將路由選擇過(guò)程(即源節(jié)點(diǎn)將數(shù)據(jù)包通過(guò)若干跳傳輸轉(zhuǎn)發(fā)到目的節(jié)點(diǎn)的過(guò)程)建模為馬爾可夫決策過(guò)程(MDP),其中MDP包含四元組<S,A,P,R>,其描述如下:
(1) 狀態(tài)空間S:當(dāng)節(jié)點(diǎn)c需要轉(zhuǎn)發(fā)數(shù)據(jù)包時(shí),它鄰居的信息決定了的最優(yōu)決策,因此節(jié)點(diǎn)c的狀態(tài)空間sc包含c的所有鄰居節(jié)點(diǎn)的信任度、每個(gè)鄰居距離終點(diǎn)的距離、上一跳與c以及c與每個(gè)鄰居的向量余弦近似度、c的兩跳鄰居離終點(diǎn)最近的距離和兩跳鄰居的數(shù)量。
(2) 動(dòng)作空間A: 當(dāng)節(jié)點(diǎn)c接收到數(shù)據(jù)包時(shí),c的通信范圍內(nèi)所有鄰居組成了動(dòng)作空間,其中可選c的一個(gè)鄰居進(jìn)行轉(zhuǎn)發(fā),
(3) 轉(zhuǎn)移概率P: 由真實(shí)環(huán)境決定,在本文中P是隨機(jī)且未知的。
(4) 獎(jiǎng)勵(lì)函數(shù)R: 為了讓節(jié)點(diǎn)能夠感知下一跳的異常程度從而輔助決策,在獎(jiǎng)勵(lì)函數(shù)中引入信任度。當(dāng)節(jié)點(diǎn)c選擇鄰居節(jié)點(diǎn)i作為動(dòng)作時(shí),其獎(jiǎng)勵(lì)值為
最后根據(jù)上述構(gòu)建馬爾科夫決策四元組,將狀態(tài)空間輸入到深度Q網(wǎng)絡(luò)(DQN),然后輸出路由決策。其中DQN利用深度神經(jīng)網(wǎng)絡(luò)逼近Q值,Q值表示了當(dāng)前節(jié)點(diǎn)選擇下一跳節(jié)點(diǎn)獲得累積獎(jiǎng)勵(lì)期望,然后根據(jù)Q值來(lái)選擇最優(yōu)的下一跳。在DQN的訓(xùn)練階段,選擇下一跳的策略為
其中,ε為神經(jīng)網(wǎng)絡(luò)的權(quán)重參數(shù),在選擇下一跳的時(shí)候以1-ε的概率選擇神經(jīng)網(wǎng)絡(luò)輸出的最大Q值對(duì)應(yīng)的動(dòng)作,為了避免陷入局部最優(yōu),以ε的概率隨機(jī)的選擇下一跳。
在測(cè)試階段,根據(jù)已經(jīng)訓(xùn)練好的網(wǎng)絡(luò)直接選擇下一跳最大的Q值作為下一跳。
仿真結(jié)果
圖2顯示了總節(jié)點(diǎn)數(shù)為100、異常節(jié)點(diǎn)數(shù)比例為0.15時(shí)不同路由協(xié)議學(xué)習(xí)曲線(GPSR無(wú)法訓(xùn)練,故平均端到端時(shí)延隨訓(xùn)練回合恒定),從圖中可以看出所提的協(xié)議DTGR在訓(xùn)練了一至兩回合后即趨向收斂且時(shí)延最低。
圖2?不同協(xié)議的訓(xùn)練曲線
圖3展現(xiàn)了異常節(jié)點(diǎn)比例對(duì)協(xié)議性能的影響。從圖3(a)(b)可以看出當(dāng)異常節(jié)點(diǎn)比例升高時(shí),所有協(xié)議的時(shí)延都在上升、包遞交率都在下降。
因?yàn)楫?dāng)總節(jié)點(diǎn)數(shù)量固定時(shí),異常節(jié)點(diǎn)數(shù)量越多則傳輸鏈路包含異常節(jié)點(diǎn)的概率增大、轉(zhuǎn)發(fā)成功的概率減小、傳輸時(shí)延提升。
另一方面,所提的協(xié)議DTGR相比于其他協(xié)議擁有最低的時(shí)延、最高的包遞交率。其原因是DTGR能夠感知節(jié)點(diǎn)的信任度,利用神經(jīng)網(wǎng)絡(luò)評(píng)估每個(gè)節(jié)點(diǎn)潛在的路由能力,進(jìn)而選擇網(wǎng)絡(luò)性能最優(yōu)的下一跳。
實(shí)驗(yàn)結(jié)果說(shuō)明了所提的協(xié)議DTGR在異常節(jié)點(diǎn)的密度發(fā)生改變時(shí),相較其他協(xié)議能進(jìn)行更優(yōu)的路由決策,保障網(wǎng)絡(luò)性能。
圖3 異常節(jié)點(diǎn)比例對(duì)協(xié)議性能的影響((a) 不同異常節(jié)點(diǎn)比例對(duì)應(yīng)的平均端到端時(shí)延;?(b) 不同異常節(jié)點(diǎn)比例對(duì)應(yīng)的包遞交率)
圖4展示總節(jié)點(diǎn)數(shù)量對(duì)協(xié)議性能的影響,從圖4(a)(b)可以看出當(dāng)節(jié)點(diǎn)數(shù)量在60及以上時(shí),所提的協(xié)議DTGR擁有最優(yōu)的平均端到端時(shí)延和包遞交率。這是因?yàn)槲覀兊膮f(xié)議能夠避免選擇信任度較低的節(jié)點(diǎn)進(jìn)行下一跳的轉(zhuǎn)發(fā)。
在圖4(b)中總節(jié)點(diǎn)數(shù)量為40時(shí)DTGR包遞交率略低于GPSR和QNGPSR,這是因?yàn)镈TGR不具備周邊轉(zhuǎn)發(fā)模式。
周邊轉(zhuǎn)發(fā)模式會(huì)在節(jié)點(diǎn)無(wú)可選下一跳時(shí),嘗試重傳數(shù)據(jù)包給已轉(zhuǎn)發(fā)過(guò)的節(jié)點(diǎn),在節(jié)點(diǎn)數(shù)量稀疏、可達(dá)鏈路很少時(shí)此模式能顯著增加包遞交率。
但重復(fù)選擇之前的異常節(jié)點(diǎn)會(huì)引入額外的時(shí)延增加通信開(kāi)銷,故DTGR放棄使用周邊轉(zhuǎn)發(fā)模式。
此外,從圖4(a)可以看出DTGR和QNGPSR協(xié)議在節(jié)點(diǎn)數(shù)量為60和80時(shí),平均端到端時(shí)延大幅低于GPSR,這是因?yàn)橥ㄐ胚^(guò)程中存在大量空洞區(qū)域, DTGR和QNGPSR評(píng)估兩跳節(jié)點(diǎn)的位置優(yōu)勢(shì),減少進(jìn)入空洞區(qū)域的概率,最終降低時(shí)延。
圖4 總節(jié)點(diǎn)數(shù)量對(duì)協(xié)議性能的影響((a) 總節(jié)點(diǎn)數(shù)量不同時(shí)對(duì)應(yīng)的平均端到端時(shí)延? ?(b) 總節(jié)點(diǎn)數(shù)量不同時(shí)對(duì)應(yīng)的包遞交率)
總結(jié)
所提的協(xié)議DTGR能夠在高移動(dòng)性且存在異常節(jié)點(diǎn)的網(wǎng)絡(luò)中根據(jù)節(jié)點(diǎn)特征選擇最優(yōu)下一跳。DTGR優(yōu)化了網(wǎng)絡(luò)的端到端時(shí)延和包遞交率。此外DTGR能夠適應(yīng)異常節(jié)點(diǎn)數(shù)量和網(wǎng)絡(luò)節(jié)點(diǎn)密度的改變,自適應(yīng)做出有效且高效的路由決策,魯棒性好。DTGR為可信場(chǎng)景下的無(wú)人機(jī)自組網(wǎng)提供了高效可靠的網(wǎng)絡(luò)路由方案。
作者介紹
仇洪冰,男,教授,研究方向?yàn)橐苿?dòng)通信,超寬帶無(wú)線通信,寬帶通信網(wǎng)絡(luò),通信信號(hào)處理。
張雅楠,女,博士生,研究方向?yàn)闊o(wú)人機(jī)智能化與網(wǎng)絡(luò)化,天地一體化網(wǎng)絡(luò)技術(shù)。
作 者 | 張雅楠
美 編 | 劉祎洋、劉艷玲
校 對(duì) | 融媒體工作室
審 核 | 陳 倩