時間:2020-07-15 19:53來源:無人機之家 作者:中國通航
|
2.2 群體動物感知定位機理
自然界中,鳥群編隊飛行的現象比較常見,其群聚行為包含自然社會、回避、探測以及防御掠奪等。鳥群經常以“V”、“J”或梯形的線性編隊飛行,其中“J”形和 梯形編隊是“V”形編隊的變形,線性編隊行為可以通過鳥群成員間的視覺信息交互提高導航能力。
無人機編隊飛行形式與生物群體社會性行為存在相似性,通過研究生物群體行為規(guī)律,為無人機編隊飛行提供關鍵有效理論及技術思考,其中將生物集群編隊理論與無人機集群相對協(xié)同導航的研究在不斷推進。以鴿群為例,在導航方式方面,鴿子在旅程不同階段會使用不同導航工具,前期依賴地磁場判斷大致的方向,后期通過地標對實際方向進行修正,太陽高度也會影響鴿子導航。研究表明,鴿群編隊系統(tǒng)與狼群等 陸地群體的模式區(qū)別甚大,在鴿群中,所有的鴿子包括頭鴿及跟隨鴿都存在層次等級,區(qū)別是頭鴿的地位不容撼動,為群體的絕對領導者,跟隨鴿只能服從上層,跟隨鴿所受影響來自于頭鴿及其上層鴿,而來自于上層鴿的影響實時性更高、效果更強。
無人機編隊集群類腦導航的研究者從鴿群層級行為得到了很多啟發(fā),表現為:
1)鴿群編隊系統(tǒng)區(qū)別于陸地群體的單一首領制度。原因是視野及通訊最高距離的限制,鴿子只能與臨近上層的鴿子實時通訊并相對跟隨。無人機編隊類腦協(xié)同導航系統(tǒng)的研究受此啟發(fā),由于長機不能時刻在僚機的通訊及視野范圍內,采用長機與僚機通訊、僚機與僚機通訊的方式實現編隊飛行;
2)鴿群個體間不是任意兩鴿均可通訊聯系,而是具有森嚴制度。無人機編隊類腦協(xié)同導航系統(tǒng)的研究受此啟發(fā),采用類似等級制度,可以增強集群通訊的可靠性,即使出現干擾甚至故障,仍可迅速實現集群系統(tǒng)重構,使系統(tǒng)不受影響; 而且各無人機個體的通訊空間可大幅度減少。
2.3 類腦導航智能自適應建模的發(fā)展現狀
未來類腦導航的主要發(fā)展趨勢之一是類腦認知,認知智能導航可以使智能導航系統(tǒng)進行理解與思考,在復雜環(huán)境下快速識別附近環(huán)境,自我判斷最優(yōu)路徑。典型例子有谷歌 DeepMind 的最新研究,其中文獻[8]說明了強化學習訓練的深度神經網絡在導航方面,仍不能與人腦的空間行為的熟練度相媲美的原因是缺乏內嗅皮層網格細胞的支撐,網格細胞可以提供一個多維度周期表示基礎,其作用類似于編碼空間,并且對于路徑集成( 集成自運動) 及計劃直接軌跡到目標( 基于矢量的導航) 有重要作用。實驗證明,網格單元自發(fā)地出現在神經網絡中,使智能體獲得空間自導航能力,這與在哺乳動物中觀察到的神經活動模式驚人的一致,也與網格細胞為空間提供高效代碼的觀點一致。
研究者首先利用網格細胞的計算功能設計一種類腦深度強化學習單元,訓練一個具有長短期記憶 ( LSTM) 架構的循環(huán)網絡,使之出現類似于網格細胞的特征,以及其他內嗅皮層細胞特征。速度作為輸入提供給該循環(huán)網絡,該網絡隨時間的反向傳播進行訓練,允許網絡動態(tài)地將當前輸入信號與反映過去事件的活動模式組合。正如預期的那樣,網絡能在涉及覓食行為的環(huán)境中準確進行路徑整合,其中25.2%的線性層單元類似于網格單元,在保守的場改組程序產生的零分布中表現出來顯著的六邊形活動模式,與嚙齒動物網格細胞的經驗結果一致。線性層還表現出類似于頭部方向單元( 10.2%) ,邊界單元( 8.7% ) 和少量位置單元以及這些表示的連接單元。為了確定這些表示的穩(wěn)健性,文獻[5-6]表明對網絡進行了100次重新訓練,每次都找到類似比例的網格狀單元( 平均23%, s.d.2.8% ,具有顯著網格特征的單元) 和其他空間調制單元。
為了開發(fā)具有矢量導航潛力的智能體,文獻[8]將上述“網格網絡”整合到一個用深度強化學習訓練的更大的架構中。和以前一樣,網格網絡是使用監(jiān)督學習訓練的,如圖6所示,但為了更好地近似可用于導航哺乳動物的信息,它現在接收受隨機噪聲和視覺輸入擾動的速度信號。發(fā)現智能體能在有挑戰(zhàn)性的、不熟悉的、變化的環(huán)境中定位目標,具有類似于網格特征的智能體的性能超過了人類專家和其他對比個體,其基于矢量的導航所需的度量尺度來自于網絡中的網格狀單元。而且,網格細胞的特征使得智能體能夠執(zhí)行與哺乳動物類似的走捷徑的行為。研究結果表明,網格狀單元為個體提供了歐幾里德空間度量和相關的向量運算,為精確導航提供了基礎。因此,結果支持將網格單元視為基于矢量導航的關鍵的神經科學理論,證明后者可以與基于路徑的策略相結合,以支持在具有挑戰(zhàn)性的環(huán)境中進行導航。
![]() 有監(jiān)督學習實驗中的網絡框架
網格單元的循環(huán)層是具有128個隱層單元的LSTM,該循環(huán)層的輸入為向量[v,sin(φ) ,cos(φ) ],初始時刻的地面真實位置,活動c0和頭朝向活動 h0 分別經過線性變換后得到 LSTM的初始單元狀態(tài)和隱藏狀態(tài)的初始化值 l0和m0.LSTM的輸出是一個經過正則化的線性層,該線性層的輸出gt是由線性變化得到的,并通過兩個softmax函數計算出預測的頭朝向單元活動zt和位置單元活動yt。研究表明線性層激活gt中含有網格狀單元及頭朝向狀單元。
傳統(tǒng)的同步定位與建圖(SLAM) 技術通常需要構建準確且完整的地圖,從外部定義目標的性質和位置。相比之下,文獻[8]中描述的深度強化學習方法能夠從稀疏獎勵中端到端地學習復雜的控制策略,以超過以往深度強化學習方法的自主能力直接引導個體到達目標甚至采用走捷徑的方式,而這些若在SLAM系統(tǒng)中則需要手動編碼。文獻[9]中提出了一種解決城市級現實環(huán)境中任務的深度強化學習導航方法,并分析了一項新的信使任務,提出了一個多城市網絡智能體架構,演示了該如何將神經網絡遷移到新的環(huán)境。
目前有4點需要進一步研究:
1)如果神經網絡的損失函數中不包括正則項,那么神經網絡無法表現出網格細胞功能,這一發(fā)現給了我們一個全新的角度去思考正則項的作用;
2)深度神經網絡的黑盒特性阻礙了進一步分析網格細胞活動特性對路徑整合的作用,由于無法在模型內進行原理分析、定性定量分析算法和編碼策略,使得研究網格細胞成為有效的導航方案異常困難,這一點再次強調了研究神經網絡的必要性以及神經科學家的重要性;
3)還需要進一步分析深度學習系統(tǒng)的內部工作機理,研究輔助類腦之空間導航的通用計算原理;
4)目前只涉及了單個智能體的類腦導航,編隊類腦方面,只涉及到了與人工智能相關的導航,但離真正的類腦還是有一定距離。
3 類腦集群導航系統(tǒng)中面臨的重難點
|