本发明属于车联网与自动驾驶,具体涉及一种基于嵌套图强化学习的网联车辆编队决策方法。
背景技术:
1、在自动驾驶领域,车辆编队是一项关键技术,特别是在高速公路环境中。车辆编队技术使得多辆车能够以一定的格式和相互保持特定的距离高效行驶,从而提高道路容量、减少能耗、提升行驶安全性。尽管如此,高速公路环境下的车辆编队面临多项挑战,包括高速行驶的安全性、动态环境下的实时响应、车辆之间的有效通信以及复杂交通情况下的决策策略。
2、随着车联网(vehicle-to-everything,v2x)技术的发展,智能车辆能够实时接收和处理来自其他车辆、交通基础设施、甚至行人的数据。这为车辆编队提供了新的解决方案,尤其是在处理复杂交通情况和实时决策方面。然而,有效地整合和利用这些数据以实现优化的编队策略仍是一个技术挑战。
3、此外,深度学习,尤其是深度强化学习(deep reinforcement learning,drl),因其在处理复杂、非线性问题方面的潜力,已成为自动驾驶研究的热点。drl能够通过与环境的交互学习最优策略,这对于车辆在不断变化的道路条件下做出快速决策至关重要。然而,将drl应用于车辆编队需要解决诸如状态空间设计、奖励机制设计以及算法的稳定性和鲁棒性等问题。
4、因此,存在一种迫切需求,开发一种新型的车辆编队技术,能够充分利用车联网提供的丰富信息,并结合深度强化学习的高效决策能力,以应对高速公路环境下的车辆编队挑战。
技术实现思路
1、本发明旨在解决现有技术中传统方法难以处理突发情况的问题,如紧急刹车、突然变道的车辆、交通拥堵等,提出一种在复杂、动态变化的实际交通环境中,特别是在多车道、高速和高密度的高速公路环境情况下的车辆编队方法。通过构建一个嵌套图模型来表示车辆队伍,并利用深度强化学习算法来优化编队中的安全跟随能力、节能效果以及舒适程度。
2、为实现上述目的,本发明提供了如下方案:一种基于嵌套图强化学习的网联智能车辆编队决策方法,包括以下步骤:
3、s1、采集编队内车辆状态信息,并对所述状态信息进行处理,得到编队间嵌套图以及车辆间嵌套图;
4、s2、采用特征提取网络对所述编队间嵌套图以及所述车辆间嵌套图进行特征提取,基于提取的特征得到每辆智能车辆的动作;所述特征提取网络包括:图注意力层、全连接层以及激活层,并引入多头注意力机制提高特征提取能力;
5、s3、对所述动作采用奖励函数进行优化,得到智能车辆决策方法。
6、进一步优选地,所述编队间嵌套图包括:编队间子图特征矩阵以及编队间子图邻接矩阵;
7、所述编队间子图特征矩阵包括:
8、
9、式中,m代表编队的数量;表示编队间子图特征矩阵;ff为编队的特征数;vli表示第i个编队领头车辆纵向速度;yai表示第i个编队领头车辆纵向位置;ybi表示第i个编队领头车辆纵向位置;表示第i个编队内的平均速度;σvi表示第i个编队内平均加速度;ti表示第i个编队领头车与前车相碰撞时间;ii表示车辆分类。
10、进一步优选地,所述编队间子图邻接矩阵基于编队间最大与最小距离与车道构建横向维度图构建;
11、所述编队间子图邻接矩阵的权重函数为:
12、
13、式中,δyij表示编队i领头车与编队j领头车之间沿车道的距离;y为编队间距离阈值。
14、进一步优选地,所述车辆间嵌套图包括:车辆间子图特征矩阵以及车辆间子图邻接矩阵;
15、所述车辆间子图特征矩阵包括:
16、
17、式中,n代表车辆的数量;表示车辆间子图特征矩阵;fv表示每辆车的特征数;vi表示第i个车辆纵向速度;yi示第i个车辆纵向位置,δvi表示第i个车辆与前车的相对速度;δyi表示第i个车辆与前车的相对纵向距离;ai表示第i个车辆的加速度;tvi表示第i个车辆与前车相碰撞时间;ivi表示车辆分类。
18、进一步优选地,所述车辆间子图连接矩阵基于车辆间距离与车辆间速度差值构建;
19、所述车辆间子图连接矩阵的权重函数为:
20、
21、式中,δvij表示速度差值;δdij表示车辆i与车辆j之间沿车道方向的距离;d表示车辆间距离阈值;v表示速度阈值。
22、进一步优选地,所述奖励函数包括:安全驾驶奖励函数、效率提升奖励函数、能量节约奖励函数以及乘客舒适性奖励函数。
23、进一步优选地,所述安全驾驶奖励函数包括:安全距离子奖励函数以及碰撞时间子奖励函数;
24、所述安全距离子奖励函数包括:
25、
26、式中,sn-1,n表示t时刻前车n-1与自车n的位置差;ds表示安全距离;
27、其中,
28、
29、式中,v0表示车辆自身速度;vf表示前车速度;d0表示最小安全距离;amax表示最大减速度;τ表示反应时间;
30、所述碰撞时间子奖励函数包括:
31、
32、式中,ttc表示碰撞时间;
33、其中,
34、
35、式中,vn(t)表示t时刻自车n的绝对速度;vn-1(t)表示t时刻前车n-1的绝对速度;vn-1,n(t)表示t时刻前车n-1与自车n的相对速度;sn-1,n表示t时刻前车n-1与自车n的位置差。
36、进一步优选地,效率提升奖励函数包括:跟车间距子奖励函数以及车速效率子奖励函数;sn-1,n(t)表示t时刻前车n-1与自车n的位置差,vn-1,n(t)表示t时刻前车n-1与自车n的速度差。
37、所述跟车间距子奖励函数包括:
38、
39、式中,表示惩罚权重;sn-1,n表示t时刻前车n-1与自车n的位置差;δddes表示期望跟车间距;
40、所述车速效率子奖励函数包括:
41、
42、式中,vn-1,n(t)表示t时刻前车n-1与自车n的相对速度;δvlimit表示两车车速差极限。
43、与现有技术相比,本发明的有益效果为:
44、(1)本发明提出的网联智能车辆编队架构是对当前自动驾驶车辆编队技术的显著改进。在高动态、高复杂度、强随机性的高速公路环境中,实现高效通信下全集成化编队决策控制。
45、(2)本发明使用车辆间与编队间的嵌套图来表示车辆间与编队间的时空交互,基于编队间领头车的相对位置构建编队间的子邻接矩阵,基于车辆间的相对位置和速度差异构建车辆间子图邻接矩阵。嵌套图能够将异质车辆交互、编队与车辆层次交互、编队之间的通信交互引入决策建模,可提高不确定性交通环境下车辆编队决策的鲁棒性、灵活性以及有效性。
46、(3)本发明将车辆间与编队间的分层图进行融合训练,通过多层注意力网络与全连接网络进行三通道提取特征,可有效提取场景中编队间、车辆间与编队到车辆的交互信息,使rl车辆能够更灵活地应对多变的路况和交通场景。
47、(4)本发明从驾驶安全性、效率提升、能量节约与乘客舒适性四个角度分别设计了奖励函数。车辆编队能够相互保持特定的距离高效行驶,从而提高道路容量、减少能耗、提升行驶安全性和舒适性。
1.一种基于嵌套图强化学习的网联智能车辆编队决策方法,其特征在于,包括以下步骤:
2.根据权利要求1所述一种基于嵌套图强化学习的网联智能车辆编队决策方法,其特征在于,所述编队间嵌套图包括:编队间子图特征矩阵以及编队间子图邻接矩阵;
3.根据权利要求2所述一种基于嵌套图强化学习的网联智能车辆编队决策方法,其特征在于,所述编队间子图邻接矩阵基于编队间最大与最小距离与车道构建横向维度图构建;
4.根据权利要求1所述一种基于嵌套图强化学习的网联智能车辆编队决策方法,其特征在于,所述车辆间嵌套图包括:车辆间子图特征矩阵以及车辆间子图邻接矩阵;
5.根据权利要求4所述一种基于嵌套图强化学习的网联智能车辆编队决策方法,其特征在于,所述车辆间子图连接矩阵基于车辆间距离与车辆间速度差值构建;
6.根据权利要求1所述一种基于嵌套图强化学习的网联智能车辆编队决策方法,其特征在于,所述奖励函数包括:安全驾驶奖励函数、效率提升奖励函数、能量节约奖励函数以及乘客舒适性奖励函数。
7.根据权利要求6所述一种基于嵌套图强化学习的网联智能车辆编队决策方法,其特征在于,所述安全驾驶奖励函数包括:安全距离子奖励函数以及碰撞时间子奖励函数;
8.根据权利要求6所述一种基于嵌套图强化学习的网联智能车辆编队决策方法,其特征在于,效率提升奖励函数包括:跟车间距子奖励函数以及车速效率子奖励函数;