本发明涉及无人机控制,尤其涉及一种基于深度强化学习的大规模无人机集群及编队控制方法。
背景技术:
1、无人机集群相较于单无人机,他们的作业效率更高、鲁棒性更强、任务分配和调度更灵活、适应性更广。无人机集群强大的协作能力,为各种复杂和大规模的任务提供了有效的解决方案。但是随着无人机数量的增长,多架无人机的协同控制成为了一个难题。在无人机集群中,每个无人机必须根据其他无人机的位置和速度以及环境中的障碍物来调整自己的行为。使用传统的无人机控制方法,如预设飞行路径和简单的避障算法,在处理大规模无人机时往往显得不够高效和灵活。而使用深度强化学习,可以训练无人机理解编队的动态,并学会如何在保持编队结构的同时有效地导航。此种方法无需进行大量的系统建模,因此在控制大规模无人机集群方面具有一定优势。
技术实现思路
1、针对现有技术的不足,本发明提供一种基于深度强化学习的大规模无人机集群及编队控制方法,本方法将无人机抽象为智能体,将集群过程抽象为马尔可夫决策过程,利用深度强化学习的强大数据处理和决策能力,以提升无人机集群的自适应性、协调性和整体任务执行效率。
2、一种基于深度强化学习的大规模无人机集群及编队控制方法,包括以下步骤:
3、步骤1:对无人机运动过程进行建模;
4、将无人机考虑为一个质点,以地面基站作为原点来建立无人机飞行的坐标模型:无人机i在空间坐标轴xyz中的位置为pi=(xi,yi,zi)t;对单个无人机的运动过程建模,有以下公式:
5、
6、
7、
8、其中θ和φ分别为无人机的俯仰角和航向角,和是t时刻无人机在垂直方向和水平方向的速度,为t时刻无人机在x、y、z方向上的速度,pt=[xt,yt,zt]和pt+1=[xt+1,yt+1,zt+1]分别为无人机在时刻t和时刻t+1的位置坐标;在无人机的飞行过程中,通过施加控制输入来引导无人机的飞行;给定以下控制输入公式:
9、
10、式中为t+1时刻无人机在x、y、z方向上的速度,ζ为无人机的速度阻尼,a=[ax,ay,az]为x、y、z三个方向的加速度控制输入,通过a的输入控制改变无人机的速度和角度,达到对无人机的控制;
11、步骤2:结合分治法的思想,将大规模无人机集群划分为若干个相同结构的子编队;
12、定义由四个子编队构成的无人机集群为二级集群,再由四个二级集群构成的无人机集群为三级集群,每个子编队由五架无人机构成,以领导者无人机为中心,跟随者无人机与领导者无人机之间的距离为半径r的正四面体;假设领导者无人机在空间中的位置坐标为pl=(xl,yl,zl),则跟随者无人机pfellow1、pfellow2、pfellow3、pfellow4的预期对应位置坐标为:
13、
14、步骤3:将无人机抽象为智能体,将无人机集群行为抽象为马尔科夫决策过程;
15、步骤4:设计自适应学习率,完成对神经网络模型的动态更新;
16、神经网络采用全连接神经网络,在神经网络的训练过程中,设计自适应学习率动态的学习网络,学习率随着步数的增加而自适应降低。自适应学习率动态的学习网络表示为:
17、
18、式中,lr是学习率,e是自然常数,δ是衰减因子,steps是当前步长,maxsteps是总步长,fre是衰减频率,int是取整;学习率衰减为指数型衰减;
19、步骤5:设计固定加可变的混合奖励函数;
20、所述固定加可变的混合奖励函数,具体包括:
21、领导者无人机奖励:领导者无人机在运动过程中具有相应的预期区域,并通过减少与区域中心的距离来获得奖励,具体如下:
22、
23、式中,pl为领导者无人机的位置,pept为领导者无人机的期望位置区域的中心位置,rept为领导者无人机的期望位置区域的半径;当领导者无人机与期望位置区域中心的距离小于此半径时,认为其已到达期望位置区域,并给予领导者无人机固定奖励αl1;其次,可变奖励大小与距离区域中心的距离成反比,如果领导者无人机离期望位置区域中心点越近,则给予领导者无人机越大的可变奖励反之,如果领导者无人机不在期望位置区域内,则会受到处罚,处罚程度与距离区域中心的距离成正比,即距离越远,处罚越大;
24、跟随者无人机奖励:跟随者无人机的奖励大小与距离领导者无人机的相对位置有关。跟随者无人机需要与领导者无人机保持特定的编队结构,当跟随者无人机处于期望位置区域时,给予正奖励,反之,给予惩罚。
25、
26、式中,rf为跟随者无人机的奖励,pf为跟随者无人机的位置,pfept为跟随者无人机的期望位置区域的中心位置,rfept为跟随者无人机的期望位置区域的半径。当跟随者无人机与期望位置区域中心的距离小于此半径时,认为其已到达该区域,并给予其固定奖励αf1;其次,跟随者无人机的可变奖励大小与距离区域中心的距离成反比,如果跟随者无人机离期望位置区域中心点越近,则给予其越大的可变奖励反之,如果跟随者无人机不在期望位置区域内,则会受到处罚,处罚程度与距离区域中心的距离成正比,即距离越远,处罚越大;
27、避碰奖励:避碰奖励函数的设置如下式所示。
28、
29、runcoll为无人机间的避碰奖励,dsafe为无人机间的安全距离,dij为无人机i与j之间的距离;当无人机i与j之间的距离满足dij≥dsafe时,此时处于安全状态,无人机不会受到处罚。当dij<dsafe时,无人机处于危险状态,通过反馈惩罚引导无人机飞离各自的危险区域,惩罚随着dij的减小逐渐增大。当无人机发生碰撞时,给予无穷大的惩罚;
30、步骤6:训练得到集群模型,通过集群模型指导无人机的自主决策,输入无人机的位置和状态得到无人机的动作,从而使大规模无人机完成集群;
31、采用上述技术方案所产生的有益效果在于:
32、本发明提供一种基于深度强化学习的大规模无人机集群及编队控制方法,提高了无人机自主性和适应性,增强了无人机的决策能力和集群协同能力,降低了无人机控制对人工干预的依赖,为大规模无人机集群及编队控制的难题提供了解决方法。
1.一种基于深度强化学习的大规模无人机集群及编队控制方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于深度强化学习的大规模无人机集群及编队控制方法,其特征在于,所述步骤1具体为:将无人机考虑为一个质点,以地面基站作为原点来建立无人机飞行的坐标模型:无人机i在空间坐标轴xyz中的位置为pi=(xi,yi,zi)t;对单个无人机的运动过程建模,有以下公式:
3.根据权利要求1所述的一种基于深度强化学习的大规模无人机集群及编队控制方法,其特征在于,所述步骤2具体为:定义由四个子编队构成的无人机集群为二级集群,再由四个二级集群构成的无人机集群为三级集群,每个子编队由五架无人机构成,以领导者无人机为中心,跟随者无人机与领导者无人机之间的距离为半径r的正四面体;假设领导者无人机在空间中的位置坐标为pl=(xl,yl,zl),则跟随者无人机pfellow1、pfellow2、pfellow3、pfellow4的预期对应位置坐标为:
4.根据权利要求1所述的一种基于深度强化学习的大规模无人机集群及编队控制方法,其特征在于,步骤4中所述神经网络模型采用全连接神经网络,在神经网络的训练过程中,设计自适应学习率动态的学习网络,学习率随着步数的增加而自适应降低;自适应学习率动态的学习网络表示为:
5.根据权利要求1所述的一种基于深度强化学习的大规模无人机集群及编队控制方法,其特征在于,步骤5中所述固定加可变的混合奖励函数,具体包括: