一种基于改进强化学习的六足机器人路径规划方法

专利检索2025-04-01  8


本发明涉及机器人,尤其涉及一种基于改进强化学习的六足机器人路径规划方法。


背景技术:

1、移动机器人可以替代人类进入危险或者未知环境进行探测,比如探测地下管道,勘探高原危险山脉。六足机器人因为其只需要离散的落点作为支点进行行走,所以具有更高的自由度,更适合在复杂环境中进行作业。

2、机器人在自主执行任务中,路径规划技术是核心技术之一,也是机器人学中的研究热点。强化学习是机器学习中的一个领域,强调如何使智能体基于环境而进行试错学习,获取环境中有效信息知识。在未知环境中,机器人不仅需要应对环境中的各种突发状况,还要对于障碍物进行避让。因此赋予机器人能自主学习能力可以提高机器人对于环境适应性和鲁棒性。

3、强化学习路径方法是一种利用强化学习算法为主导,通过机器人在移动过程中不断与环境交互,逐渐积累经验,在移动过程中进行迭代获得最优策略的方法。对于状态空间大的环境目前主要是使用深度强化学习算法(deep q network,dqn),但是该算法存在训练过程中过高估问题。后续研究人员改进提出了双层深度强化学习算法(doubledeep qnetwork,ddqn)的路径规划方法,使用本地神经网络和目标神经网络来减轻q值的估计偏差,提高规划速度和决策效率。

4、目前大多数对于六足机器人的路径规划主要是以强化学习为核心。使用ddqn算法的路径规划技术可以提高规划路径中出现的算法高估问题,提高了算法的稳定性。但是ddqn算法和其他强化学习算法一样都非常依赖经验池的数据,所以经验池数据的有效性决定了算法的决策速率。当经验池数据中存在很多错误数据时,会减慢算法的收敛速度和降低算法的准确性。


技术实现思路

1、本发明的目的是要提供一种基于改进强化学习的六足机器人路径规划方法。

2、为达到上述目的,本发明是按照以下技术方案实施的:

3、本发明包括以下步骤:

4、s1:在一个马尔可夫过程中包含智能体、状态集、动作集,状态集中包含智能体在环境中的位置;动作集包含每个状态集中可以执行的动作,构建结构相同的本地神经网络和目标神经网络;

5、s2:将本地神经网络中的参数更新给目标神经网络,使两个神经网络的初始参数相同;

6、s3:运行中的六足机器人获取包括场景布局、自身位置、目标位置、运行状态的全局信息,

7、s4:初始化探索率,探索率的值随着整个算法的迭代次数逐步减少;

8、s5:将动作选择进行改进,根据本地策略神经网络进行选择动作,将执行的动作放在环境中进行观察下一个状态,观察到的状态更新四个环境矩阵;利用在经验池中的积累,对地图数据进行构造、更新粒子的速度和位置、更新全局最佳位置,最后将规划好的路线点提取当前六足机器人所在位置点的下一个模糊点,选择该模糊点方向动作,执行动作后,观察状态是否有障碍物,如果有标定坐标,并惩罚奖励,更新状态矩阵和地图数据,反之更新矩阵和地图数据;

9、s6:将所得状态矩阵存入经验池,当经验池到达指定存储数据上限时将删除指定数量的老旧数据删除;

10、s7:判断是否达到最大训练周期,如果没有达到,则需要在进入下一轮训练前检查是否达到指定周期更新目标神经网络,如果达到更新目标神经网络,反之则不更新目标神经网络,;如果达到最大训练周期,则得到改进强化学习算法,用于路径规划。

11、本发明的有益效果是:

12、本发明是一种基于改进强化学习的六足机器人路径规划方法,与现有技术相比,本发明不仅能提高强化学习算法中经验池数据积累的有效性,还能缩短机器人在多维环境中跨平面规划决策所用时间。使用粒子群算法替代原有策略,使六足机器人对于动作选择目的性更强,提高经验池中有效数据数量。



技术特征:

1.一种基于改进强化学习的六足机器人路径规划方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于改进强化学习的六足机器人路径规划方法,其特征在于:本地神经网络和目标神经网络均采用卷积神经网络,卷积神经网络有两个卷积层两个池化层和三个线性层;卷积神经网络主要分为三个部分:第一部分:一级卷积层和一级最大池化层;第二部分:二级卷积层和二级最大池化层;第三部分:对前两个部分的得到的数据经过三层全连接层进行线性拟合。

3.根据权利要求2所述的基于改进强化学习的六足机器人路径规划方法,其特征在于:所述步骤s1中,设状态集s、动作集a,初始化本地神经网络的参数和初始化目标神经网络的参数,设置超参数学习率,折扣率,经验池;在六足机器人与环境进行交互时,会产生当前位置、由动作策略产生的动作、转移到下一个位置、环境给予的奖惩;六足机器人为了在环境中获得积累奖赏最大,使六足机器人在每个状态下都能执行该状态下最大奖励值的动作;优化目标神经网络实际值计算方法如下:

4.根据权利要求3所述的基于改进强化学习的六足机器人路径规划方法,其特征在于:所述步骤s5具体为:动作选择改进如下式:

5.根据权利要求4所述的基于改进强化学习的六足机器人路径规划方法,其特征在于:所述步骤s6具体为:所得状态数据以当经验池到达指定存储数据上限时将删除指定数量的老旧数据删除,从经验池中随机采样一批经验进行训练,使用公式(1)计算,计算在当前状态下所采取的动作的q值,再使用均方差损失函数计算损失值:


技术总结
本发明公开了一种基于改进强化学习的六足机器人路径规划方法,包括马尔可夫过程、神经网络构建、全局信息获取、探索率调整、动作选择改进、经验池管理、训练步数判断及目标神经网络更新等步骤。通过本发明,能够有效提高强化学习算法中经验池数据积累的效率,缩短六足机器人在多维环境中的跨平面规划决策时间。采用粒子群算法替代原有策略,使得机器人动作选择更具目的性,进而增加了经验池中有效数据的数量。相比现有技术,本发明具有更高的路径规划效率和更强的动作选择能力,可广泛应用于六足机器人领域。

技术研发人员:王琦标,陈刘鸿旭,谢波,邓超,杨剑波,庹先国
受保护的技术使用者:四川轻化工大学
技术研发日:
技术公布日:2024/5/29
转载请注明原文地址:https://win.8miu.com/read-1151770.html

最新回复(0)