桂林電子科技大學仇洪冰團隊提出一種基于深度強化學習的可信無人機地理路由協(xié)議DTGR
基于深度強化學習的無人機可信地理位置路由協(xié)議>>
專家意見:該文提出了一種基于深度強化學習的可信無人機地理路由協(xié)議DTGR,為無人機自組網(wǎng)提供了高效可靠的網(wǎng)絡通信方案。
具體而言,使用新的信任度度量和更新方式,減少通信過程中的檢測開銷。然后結合下一跳的狀態(tài)特征構建MDP模型,并根據(jù)信任度設計了獎勵函數(shù),最后訓練深度神經(jīng)網(wǎng)絡學習最優(yōu)路由決策。DTGR能夠在包含異常節(jié)點的場景中降低端到端時延、提升包遞交率,優(yōu)化網(wǎng)絡性能。
總體而言,論文結構合理,格式規(guī)范,闡述清楚,工作具有創(chuàng)新性。
研究背景與動機
隨著無人機硬件和通信技術的飛速發(fā)展,無人機變得更靈活、健壯和低成本。無人機的應用也變越來越廣泛。多無人機通過自組網(wǎng)的方式協(xié)同通信可以高效的處理復雜的任務并且具有更高的可擴展性。
路由協(xié)議作為無人機通信網(wǎng)絡的重要一環(huán),存在高移動性、網(wǎng)絡拓撲變化頻繁、異常節(jié)點的挑戰(zhàn),從而造成的丟包和時延的增加,嚴重的影響了路由的性能。
傳統(tǒng)的和啟發(fā)式的無人機路由協(xié)議無法更好適應復雜的飛行環(huán)境和多變的通信任務,因此基于深度強化學習的無人機路由協(xié)議成為目前熱門的路由研究方向。然而目前基于深度強化學習的無人機路由協(xié)議主要致力于根據(jù)不同的優(yōu)化指標學習下一跳,從而來提升網(wǎng)絡性能,卻沒有考慮異常節(jié)點對網(wǎng)絡性能造成的潛在影響。
為了在非完全可信的網(wǎng)絡中感知異常節(jié)點,其中有一些主流研究方案采用節(jié)點信任度衡量節(jié)點的異常程度,然而這些方法在通信過程中檢測,引入了額外的檢測開銷,并且需要在決策前更新節(jié)點的信任度,降低了網(wǎng)絡性能。
為了解決上述的問題,本文提出了一種基于深度強化學習的無人機可信地理位置路由協(xié)議(DTGR)。每個節(jié)點通過可信第三方提供、更新節(jié)點的信任度,降低了評估開銷。結合目標節(jié)點的地理位置、鄰居拓撲信息作為狀態(tài)特征,將路由選擇過程建模成馬爾可夫決策過程,然后使用DRL算法進行更智能決策,從而提升網(wǎng)絡性能。
系統(tǒng)模型和提出路由協(xié)議
1.信任度模型
在存在異常節(jié)點的無人機網(wǎng)絡中,可以用節(jié)點信任度來反映了節(jié)點的服務能力,它是一個標量。它用來評估鄰居在通信過程中出現(xiàn)積極或者消極行為的概率,引入可信第三方提供節(jié)點的信任度,使用理論與真實的時延偏差d和丟包率h作為信任度的評估因子,因此節(jié)點的信任度T定義為
2.該文提出的路由協(xié)議
該文提出的基于深度強化學習的可信地理路由協(xié)議(DTGR),其主要架構如圖1所示
圖1 DTGR協(xié)議架構
首先無人機網(wǎng)絡中每個節(jié)點會通過信標周期的廣播信標,并維護自己的鄰居表。
鄰居表包含節(jié)點的鄰居的編號、信任度、地理位置和兩跳鄰居拓撲信息。
兩跳鄰居拓撲信息的目的是讓當前轉發(fā)節(jié)點能夠評估兩跳鄰居到終點的可達性,預測下一跳為空洞區(qū)域或孤立節(jié)點的概率。
同時在數(shù)據(jù)包轉發(fā)過程中,記錄以下額外信息:源節(jié)點,上一跳和終點的編號和位置。并且維護一個已訪問的節(jié)點集。從而避免環(huán)路。
然后借助上述構建的鄰居表和數(shù)據(jù)包記錄的額外信息,將路由選擇過程(即源節(jié)點將數(shù)據(jù)包通過若干跳傳輸轉發(fā)到目的節(jié)點的過程)建模為馬爾可夫決策過程(MDP),其中MDP包含四元組<S,A,P,R>,其描述如下:
(1) 狀態(tài)空間S:當節(jié)點
c需要轉發(fā)數(shù)據(jù)包時,它鄰居的信息決定了的最優(yōu)決策,因此節(jié)點
c的狀態(tài)空間
sc包含
c的所有鄰居節(jié)點的信任度、每個鄰居距離終點的距離、上一跳與
c以及
c與每個鄰居的向量余弦近似度、
c的兩跳鄰居離終點最近的距離和兩跳鄰居的數(shù)量。
(2) 動作空間A: 當節(jié)點c
接收到數(shù)據(jù)包時,c
的通信范圍內所有鄰居組成了動作空間,其中可選c
的一個鄰居進行轉發(fā),
(3) 轉移概率P: 由真實環(huán)境決定,在本文中
P是隨機且未知的。
(4) 獎勵函數(shù)R: 為了讓節(jié)點能夠感知下一跳的異常程度從而輔助決策,在獎勵函數(shù)中引入信任度。當節(jié)點
c選擇鄰居節(jié)點
i作為動作時,其獎勵值為
最后根據(jù)上述構建馬爾科夫決策四元組,將狀態(tài)空間輸入到深度Q網(wǎng)絡(DQN),然后輸出路由決策。其中DQN利用深度神經(jīng)網(wǎng)絡逼近Q值,Q值表示了當前節(jié)點選擇下一跳節(jié)點獲得累積獎勵期望,然后根據(jù)Q值來選擇最優(yōu)的下一跳。在DQN的訓練階段,選擇下一跳的策略為
其中,ε為神經(jīng)網(wǎng)絡的權重參數(shù),在選擇下一跳的時候以1-ε的概率選擇神經(jīng)網(wǎng)絡輸出的最大Q值對應的動作,為了避免陷入局部最優(yōu),以
ε的概率隨機的選擇下一跳。
在測試階段,根據(jù)已經(jīng)訓練好的網(wǎng)絡直接選擇下一跳最大的Q值作為下一跳。
仿真結果
圖2顯示了總節(jié)點數(shù)為100、異常節(jié)點數(shù)比例為0.15時不同路由協(xié)議學習曲線(GPSR無法訓練,故平均端到端時延隨訓練回合恒定),從圖中可以看出所提的協(xié)議DTGR在訓練了一至兩回合后即趨向收斂且時延最低。
圖2?不同協(xié)議的訓練曲線
圖3展現(xiàn)了異常節(jié)點比例對協(xié)議性能的影響。從圖3(a)(b)可以看出當異常節(jié)點比例升高時,所有協(xié)議的時延都在上升、包遞交率都在下降。
因為當總節(jié)點數(shù)量固定時,異常節(jié)點數(shù)量越多則傳輸鏈路包含異常節(jié)點的概率增大、轉發(fā)成功的概率減小、傳輸時延提升。
另一方面,所提的協(xié)議DTGR相比于其他協(xié)議擁有最低的時延、最高的包遞交率。其原因是DTGR能夠感知節(jié)點的信任度,利用神經(jīng)網(wǎng)絡評估每個節(jié)點潛在的路由能力,進而選擇網(wǎng)絡性能最優(yōu)的下一跳。
實驗結果說明了所提的協(xié)議DTGR在異常節(jié)點的密度發(fā)生改變時,相較其他協(xié)議能進行更優(yōu)的路由決策,保障網(wǎng)絡性能。
圖4展示總節(jié)點數(shù)量對協(xié)議性能的影響,從圖4(a)(b)可以看出當節(jié)點數(shù)量在60及以上時,所提的協(xié)議DTGR擁有最優(yōu)的平均端到端時延和包遞交率。這是因為我們的協(xié)議能夠避免選擇信任度較低的節(jié)點進行下一跳的轉發(fā)。
在圖4(b)中總節(jié)點數(shù)量為40時DTGR包遞交率略低于GPSR和QNGPSR,這是因為DTGR不具備周邊轉發(fā)模式。
周邊轉發(fā)模式會在節(jié)點無可選下一跳時,嘗試重傳數(shù)據(jù)包給已轉發(fā)過的節(jié)點,在節(jié)點數(shù)量稀疏、可達鏈路很少時此模式能顯著增加包遞交率。
但重復選擇之前的異常節(jié)點會引入額外的時延增加通信開銷,故DTGR放棄使用周邊轉發(fā)模式。
此外,從圖4(a)可以看出DTGR和QNGPSR協(xié)議在節(jié)點數(shù)量為60和80時,平均端到端時延大幅低于GPSR,這是因為通信過程中存在大量空洞區(qū)域, DTGR和QNGPSR評估兩跳節(jié)點的位置優(yōu)勢,減少進入空洞區(qū)域的概率,最終降低時延。
圖4 總節(jié)點數(shù)量對協(xié)議性能的影響((a) 總節(jié)點數(shù)量不同時對應的平均端到端時延? ?(b) 總節(jié)點數(shù)量不同時對應的包遞交率)
總結
所提的協(xié)議DTGR能夠在高移動性且存在異常節(jié)點的網(wǎng)絡中根據(jù)節(jié)點特征選擇最優(yōu)下一跳。DTGR優(yōu)化了網(wǎng)絡的端到端時延和包遞交率。此外DTGR能夠適應異常節(jié)點數(shù)量和網(wǎng)絡節(jié)點密度的改變,自適應做出有效且高效的路由決策,魯棒性好。DTGR為可信場景下的無人機自組網(wǎng)提供了高效可靠的網(wǎng)絡路由方案。
作者介紹
仇洪冰,男,教授,研究方向為移動通信,超寬帶無線通信,寬帶通信網(wǎng)絡,通信信號處理。
張雅楠,女,博士生,研究方向為無人機智能化與網(wǎng)絡化,天地一體化網(wǎng)絡技術。
作 者 | 張雅楠
美 編 | 劉祎洋、劉艷玲
校 對 | 融媒體工作室
審 核 | 陳 倩