本发明属于路径规划,尤其涉及一种实时路径寻优和机动规避行动规划方法和装置。
背景技术:
1、在地面战场环境中,红方作战车辆及装备的战场机动是侦察、打击、运输等各项作战任务的基石。由于地面战场环境中的机动行为受地形和装备性能限制较大,通常只能在指定路网图上实现快速、安全机动,而蓝方的侦察行为则多来源于卫星、无人机等受地形限制较小的空中单元。目前,针对这一实时博弈对抗及路径规划问题的研究较少,主要采用多次离线规划的方法,无法有效利用蓝方侦察单元的时序信息。
技术实现思路
1、本发明要解决的技术问题是,提供一种实时路径寻优和机动规避行动规划方法和装置,能够有效刻画蓝方侦察单元时序信息,并以此为基础为红方路网机动单元规划机动路径和速度,使其在尽可能快速且尽可能不被侦察到的任务目标下到达终点。
2、为实现上述目的,本发明采用如下的技术方案:
3、一种实时路径寻优和机动规避行动规划方法,包括以下步骤:
4、步骤s1、获取路网拓扑图与蓝方侦察单元轨道数据;
5、步骤s2、根据路网拓扑图与蓝方侦察单元轨道数据、红方路网机动单元轨道数据,得到强化学习模型所需训练集;
6、步骤s3、构建强化学习模型;
7、步骤s4、根据所述训练集训练强化学习模型;
8、步骤s5、在实际规划中的每一个决策时刻,对每个路网机动单元,根据训练好的强化学习模型,从动作空间中选取最优动作作为当前时刻的机动策略。
9、作为优选,步骤s3中,使用变种的深度q网络构建强化学习模型。
10、作为优选,步骤s4中,使用基于梯度下降的优化器训练强化学习模型。
11、作为优选,步骤s5中,所述机动策略根据各个动作的总评分选取最优获得,每个动作的总评分由应用该动作所产生的单步奖励和训练好的强化学习模型对该动作后继状态的评分求和得到。
12、作为优选,步骤s2中,基于实时路径寻优和机动规避任务,根据路网拓扑图和蓝方侦察单元轨道数据、红方路网机动单元与环境的交互数据,构建强化学习模型所需的训练集。
13、本发明还提供一种实时路径寻优和机动规避行动规划装置,包括:
14、获取模块,用于获取路网拓扑图与蓝方侦察单元轨道数据;
15、处理模块,用于根据路网拓扑图与蓝方侦察单元轨道数据、红方路网机动单元轨道数据,得到强化学习模型所需训练集;
16、构建模块,用于构建强化学习模型;
17、训练模块,用于根据所述训练集训练强化学习模型;
18、机动模块,用于在实际规划中的每一个决策时刻,对每个路网机动单元,根据训练好的强化学习模型,从动作空间中选取最优动作作为当前时刻的机动策略。
19、作为优选,构建模块使用变种的深度q网络构建强化学习模型。
20、作为优选,训练模块使用基于梯度下降的优化器训练强化学习模型。
21、作为优选,机动模块根据各个动作的总评分选取最优获得,每个动作的总评分由应用该动作所产生的单步奖励和训练好的强化学习模型对该动作后继状态的评分求和得到。
22、作为优选,处理模块基于实时路径寻优和机动规避任务,根据路网拓扑图和蓝方侦察单元轨道数据、红方路网机动单元与环境的交互数据,构建强化学习模型所需的训练集。
23、本发明关注具有欧式距离度量的路网拓扑图上的实施规划问题,旨在为蓝方空中侦察下的红方路网机动单元提供实时行动规划,行动包括路径寻优和机动规避两部分,使得红方机动单元在尽可能快速且尽可能不被侦察到的任务目标下从起点行进至终点。在具有欧式距离的二维平面上,给定路网拓扑图及图中各顶点的坐标,边的长度由两端点的坐标和欧式距离度量所确定,本发明在时间序列内等间隔的每个决策时刻下,对给定的蓝方侦察单元侦察半径及当前位置坐标,在路网拓扑图上为红方机动单元规划当前决策时刻下的机动动作,使得红方机动单元在尽可能快速且尽可能少被侦察到的任务目标下,由指定起点行进至指定终点。其中每个决策时刻下的机动动作包括机动路径和速度两部分,机动路径需保持在路网拓扑图内,且确保完整的行进路径中无环;速度需在合法速度集(包含0)中选取,速度为0代表就地隐蔽,此时不会被蓝方侦察单元所侦察。
1.一种实时路径寻优和机动规避行动规划方法,其特征在于,包括以下步骤:
2.如权利要求1所述的实时路径寻优和机动规避行动规划方法,其特征在于,步骤s3中,使用变种的深度q网络构建强化学习模型。
3.如权利要求2所述的实时路径寻优和机动规避行动规划方法,其特征在于,步骤s4中,使用基于梯度下降的优化器训练强化学习模型。
4.如权利要求3所述的实时路径寻优和机动规避行动规划方法,其特征在于,步骤s5中,所述机动策略根据各个动作的总评分选取最优获得,每个动作的总评分由应用该动作所产生的单步奖励和训练好的强化学习模型对该动作后继状态的评分求和得到。
5.如权利要求4所述的实时路径寻优和机动规避行动规划方法,其特征在于,步骤s2中,基于实时路径寻优和机动规避任务,根据路网拓扑图和蓝方侦察单元轨道数据、红方路网机动单元与环境的交互数据,构建强化学习模型所需的训练集。
6.一种实时路径寻优和机动规避行动规划装置,其特征在于,包括:
7.如权利要求6所述的实时路径寻优和机动规避行动规划装置,其特征在于,构建模块使用变种的深度q网络构建强化学习模型。
8.如权利要求7所述的实时路径寻优和机动规避行动规划装置,其特征在于,训练模块使用基于梯度下降的优化器训练强化学习模型。
9.如权利要求8所述的实时路径寻优和机动规避行动规划装置,其特征在于,机动模块根据各个动作的总评分选取最优获得,每个动作的总评分由应用该动作所产生的单步奖励和训练好的强化学习模型对该动作后继状态的评分求和得到。
10.如权利要求9所述的实时路径寻优和机动规避行动规划装置,其特征在于,处理模块基于实时路径寻优和机动规避任务,根据路网拓扑图和蓝方侦察单元轨道数据、红方路网机动单元与环境的交互数据,构建强化学习模型所需的训练集。