深度强化学习型能量管理策略的无权重训练及测试方法

专利检索2026-03-04 1

本发明属于新能源汽车与人工智能算法的交叉领域，涉及一种深度强化学习型能量管理策略的无权重训练及测试方法。

背景技术：

1、纯电动汽车因其充电价格、环保动力和适用于城市驾驶等特点引起消费者的关注，燃料电池汽车使用氢气在燃料电池堆中产生电力，然后驱动电动机，而混合动力汽车处于更先进的技术阶段，能够满足长途旅行、便捷加油/充电、能效和减排的要求。能量管理策略是决定混合动力汽车燃油经济性的核心技术之一，需要在满足动力需求与系统约束的同时确保多个能源之间的最优能量分配。近年，强化学习在游戏和自动驾驶等领域取得了许多惊人的成就，研究热度逐年增加。同时，为了解决传统强化学习中的“离散误差”和“维度灾难”等缺陷，学者们开始更加关注于深度强化学习算法，如深度值网络、深度确定性策略梯度、软性演员-评论家等。然而，在针对能量管理策略的实际研究过程中存在以下两点问题：

2、(1)奖励函数中的soc偏差项可能误导强化学习智能体。许多研究都采用包含瞬时燃油消耗和电荷状态偏差的奖励函数，这可能受到以往基于等效燃油消耗最小策略算法的影响。在强化学习的背景下，奖励值在引导智能体探索更优控制策略时起着关键作用。然而，这种定义类型的奖励却可能误导训练流程。例如，当实时soc和目标值之间已经存在很大差距，采取的任何动作都可能产生很大的奖励。类似地，当soc等于40％和80％时，尽管与目标值的偏差相同，但是应该选择的最优动作将不一致。由于受到传统能量管理策略的经验影响，这种奖励函数的定义可能并不适用于强化学习型能量管理策略。

3、(2)传统的训练过程将耗费大量精力和时间调整权重参数。通常，在正常的训练过程中，确保算法在优化目标下能够收敛至关重要。随后，根据结果针对混合动力系统模型进行检查。依赖于持续的训练以及权重的调整，目标就是实现最佳燃油经济性与维持soc状态。因此，权重调整是一个耗时的过程，严重依赖于个人经验以及所用设备的算力。此外，在权重调整技能方面，特别是奖励函数中的权重系数，基本上没有有价值的共享经验。

技术实现思路

1、有鉴于此，本发明的目的在于提供一种深度强化学习型能量管理策略的无权重训练及测试方法，使其适用于混合动力汽车并且能够提高能量管理策略的训练速度和控制效率。

2、为达到上述目的，本发明提供如下技术方案：

3、一种深度强化学习型能量管理策略的无权重训练及测试方法，具体包括以下步骤：

4、s1：针对仿真环境的训练与测试场景的建模，结合来地图(如谷歌地图、谷歌地球)与地理信息系统的真实数据，利用三维仿真建模软件(如matlab、roadrunner及unrealengine等)，修改基于mathworks官方地图中curved road的训练场景，并且搭建来自于真实道路的测试场景，同时设计一套面向短时域行驶范围的实时速度规划方法；

5、s2：针对多种配备单电机的并联混合动力系统构型，建立基于python环境与simulink环境的联合仿真训练架构，通过matlab.engine引擎与matlab函数形成交互式数据传递架构；

6、s3：针对以往的训练方法中存在的设计缺陷，设计一种新的无权重化训练方法，通过消除原先奖励函数中关于瞬时燃料消耗和soc偏差的优化项后，引入规则型发动机启停策略实现针对soc变化的维持，并利用发动机最佳运行曲线与燃油消耗率引导深度强化学习型智能体探索最优型能量管理策略；

7、s4：离线仿真训练与测试环节结束后进行硬件在环测试，将训练得到的最优能量管理策略在python环境下保存为pytorch工具的pth文件，在simulink环境中通过constant常量模块的形式重建矩阵，而数据总量由相邻两层的神经元个数决定，通过huahai rapidu3车规级控制器以及speedgoat移动实时目标机，利用can通讯方式完成针对深度强化学习型混合动力系统能量管理策略的硬件在环测试、校准与监控。

8、进一步，步骤s1中，针对仿真环境的训练与测试场景的建模，具体包括以下步骤：

9、s11：通过地图(如谷歌地图)确定起点到终点的最佳路径；然后，通过在数字地球(如谷歌地球)中搜索目标路径，获取目标路径的高程数据，以kml格式导出路径并利用地理信息系统获取纬度和经度数据；并获取相对应目标路径所在区域的地形特征。随后，使用mathworks发布的mapping toolbox工具集中distance函数，将纬度和经度信息转换为距离数据，并使用数据在笛卡尔坐标系中以米为单位重新创建整个路径的轨迹。接下来，该路径轨迹被转换为xodr格式并导入到roadrunner软件中，针对目标路径绘制道路表面、车道线和道路边界等元素。通过该模型被保存为fbx文件并且导入到unreal engine建模软件后，利用地形建模工具对目标路径的周围区域绘制相应的地形特征。此外，还建立具有标志性的地理特征元素。在完成以上过程后，建立了3d测试场景模型，以1:1的比例复制了真实世界的目标路径。

10、s12：训练路径主要基于mathworks官方地图中curved road场景。由于原始道路模型是完全封闭且绝对平坦的，因此引入真实世界的海拔变化，模拟真实世界的起伏地形，将实际坡度与z轴数据合并；此外，坡度的引入导致了起点和终点之间在垂直方向上的显著高度差。因此，当车辆即将到达终点时，立即停止当前回合的训练，具体的建模过程与测试场景相同。

11、s13：在完成驾驶场景的三维建模后，需要设计一种能够用于实时且局部速度规划的方法。在综合考虑巡航控制、车道保持、速度优化以及坡度利用时，短期行驶速度规划能够在引入自动驾驶算法时，为后续路径规划与避障等功能提供必要的数据接口。如果前方存在障碍物，那么局部速度规划的范围将进一步缩小。此外，考虑到实际条件，例如前视摄像头视野范围，速度规划区域将限制在当前位置所处的路点后未来60个路点范围内。这就意味着根据实时的最大纵向行驶力、最大纵向制动力、道路曲率、道路坡度以及空气阻力系数等参数进行未来60米范围的速度规划。这些环境变量在实际目标速度轨迹中是隐含的，而规划的短时域速度轨迹完全符合机械特性。同时，在60米范围内以每个路点位置的当前速度为基础，确保车辆能够在未来60米处能够安全且舒适的停止。

12、进一步，步骤s2具体包括以下步骤：

13、s21：利用python环境下的pytorch深度学习工具包建立深度强化学习型智能体，分别搭建面向离散控制的深度值网络算法以及面向连续控制的深度确定性策略梯度算法，这两者除了输出层之外具有相同的全连接型神经网络架构，即7/256/128/64，而前者输出层共计16个神经元且不适用激活函数，后者输出层仅1个神经元且适用sigmoid函数控制输出范围。

14、s22：在simulink环境下结合powertrain blockset工具总共建立多种配备单电机的并联式混合动力系统模型。由于电机布置位置不同，导致实际运行过程中电机的转速与转矩状态也有着较大区别，因此在进行能量管理策略时承担的角色也有所差异，就使用相同的强化学习配置针对不同构型的混合动力系统进行策略探索。

15、s23：构建交互式联合仿真训练架构，在python环境下启动simulink的混合动力系统模型后，保持两种环境始终运行在适合的频率范围内，而在python的每个单步循环中使用来自强化学习智能体的控制动作对simulink模型中的常数模块进行刷写，同时采集当前时刻下混合动力系统的必要状态信息传输回python。需要注意的是，应当将控制命令对常数模块的刷写频率控制在毫秒级，否则过高的延迟会导致系统延误。

16、进一步，步骤s3中，设计无权重化训练方法，具体包括以下步骤：

17、s31：设计一套规则型发动机启停策略，这不但实现了学习型与规则型控制策略的融合，而且达到优势结合与缺陷互补的目标。针对规则型发动机启停策略的设计如下，主要涉及需求功率与电池soc两种关键状态参数：

18、1)当需求转矩等于0kw时：发动机和电机停止工作，车辆处于静止状态；

19、2)当需求转矩小于0kw时：发动机停止，车辆处于再生制动模式；

20、3)当需求转矩大于0kw时，分以下两种情况：

21、①需求转矩大于电机最大转矩时，发动机启动，车辆处于混合驱动模式；

22、②需求转矩小于等于电机最大转矩时，根据电池soc的实时状态进一步划分，具体为：

23、a.soc大于上限阈值65％，发动机停止，车辆处于纯电动模式；

24、b.soc小于下限阈值45％，发动机启动，车辆处于行车充电模式；

25、c.soc在阈值范围内，结合矩形波思想使发动机保持当前工作状态；

26、对于以马尔科夫决策过程为环境的深度强化学习算法而言，在正常的程序运行过程中，只有当前以及上一时刻的发动机运行状态是能够掌握的。一旦车辆处于长时间停车或者保持再生制动模式后，该规则型发动机启停策略是无法判断下一时刻的发动机应该恢复运行状态或是保持停止状态。因此，借鉴矩形波的思想，将发动机启动视为上升沿，而将发动机停止视为下降沿。同时，将发动机处于运行状态的行车充电模式设定为状态1，将发动机处于静止状态的纯电动驱动模式设定为状态0，将其余状态设定为暂态。通过记录并比较上升沿与下降沿的数目差异，能够判断马尔科夫决策过程中多时间步前的发动机工作状态。

27、s32：混合动力系统能量管理策略的设计目标要求在提高燃油经济性的同时保持电荷状态，然而，强化学习智能体在运行过程中的每个允许时刻都会产生相应动作，而在学习何时停止发动机方面存在困难。因此，通过与规则型发动机启停策略相结合，混合动力系统可以根据实时需求转矩和soc情况动态地进行驾驶模式切换，确保仅在需求扭矩较高或者soc较低时启动发动机进行充电或者补充转矩，从而将发动机不必要的运行时间最小化。此外，如果奖励函数仅包括瞬时油耗，训练出的策略往往倾向于将发动机的工作点保持在油耗图的底部。因此为解决这个问题，设计无权重化奖励函数，通过考虑发动机最佳运行曲线与燃油消耗率，将最佳运行曲线作为专家经验，引导强化学习智能体根据发动机特性选择最佳动作。然而，以偏差形式表示可能出现在最佳值两侧的不同动作，添加燃油消耗率项后，强化学习智能体就能够选择对应更高效率的动作。因此，这两个优化项具有相等的重要性，消除了引入权重系数的必要性。同时，为了优化训练过程，该两个优化项均以归一化形式进行表征，具体如下：

28、

29、其中，rnew-ems表示无权重化奖励函数，bsfc表示燃油消耗率，bsfcmax是最大燃油消耗率，bsfcmin是最小燃油消耗率，abs表示绝对值，teng是发动机转矩，τ是一个防止分母成为零的极小常数，tmaxeng是当前发动机的最大转矩，tmineng是当前发动机的最小转矩，toot是发动机最佳运行曲线的转矩。

30、本发明的有益效果在于：本发明能够适用于混合动力汽车与深度强化学习型能量管理策略，提高了能量管理测量的训练速度和精确度。

31、本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

技术特征：

1.一种深度强化学习型能量管理策略的无权重训练及测试方法，其特征在于，该方法具体包括以下步骤：

2.根据权利要求1所述的无权重训练及测试方法，其特征在于，步骤s1具体包括以下步骤：

3.根据权利要求1所述的无权重训练及测试方法，其特征在于，步骤s2具体包括以下步骤：

4.根据权利要求1所述的无权重训练及测试方法，其特征在于，步骤s3中，设计无权重化训练方法，具体包括以下步骤：

5.根据权利要求1所述的无权重训练及测试方法，其特征在于，步骤s32中，为了优化训练过程，两个优化项均以归一化形式进行表征，具体如下：

技术总结
本发明涉及一种深度强化学习型能量管理策略的无权重训练以及测试方法，属于新能源汽车与人工智能算法的交叉领域。该方法包括：S1：建立面向离线迭代训练的仿真道路场景，并搭建来自于真实道路的测试场景，同时设计面向短时域行驶范围的实时速度规划方法；S2：针对多种配备单电机的并联混合动力系统构型，建立基于Python环境与Simulink环境的联合仿真训练架构；S3：设计无权重化训练方法，通过消除原先奖励函数中关于瞬时燃料消耗和SOC偏差的优化项后，引入规则型发动机启停策略实现针对SOC变化的维持，并利用发动机最佳运行曲线与燃油消耗率引导深度强化学习型智能体探索最优型能量管理策略；S4：离线仿真训练与测试环节结束后进行硬件在环测试。

技术研发人员：唐小林,陈佳信,汪锋,杨为,李佳承
受保护的技术使用者：重庆大学
技术研发日：
技术公布日：2024/5/29

转载请注明原文地址:https://win.8miu.com/read-1162094.html

专利

最新回复(0)