一种基于时空特征提取和强化学习的交通信号控制方法

专利检索2025-07-25  6


本发明属于道路车辆的交通控制系统领域,涉及多路口交通信号协同控制、时空特征提取、多智能体深度强化学习等技术,尤其涉及在复杂动态交通下的基于时空特征提取的多智能体深度强化学习的交通信号控制方法。


背景技术:

1、交通拥堵带来巨大经济成本、燃料浪费和环境污染,还严重影响人们的出行和通勤成本,降低城市交通效率。一个有效缓解交通拥堵的途径是交通信号灯协同控制。

2、近年来随着物联网、人工智能等技术的发展,基于多智能体强化学习的交通信号控制方法因为可以直接通过与环境动态交互来学习最优策略,相比于传统方法表现出更优越的性能。但目前的研究仍存在着几个尚未解决的难点问题。首先,目前研究在划分信号协同控制区域时忽视了路口时空动态依赖关系对整体决策效果的影响。当前对于路口协同调的研究仅局限于以地理位置远近静态划分的邻居区域,而实际上路口之间的影响关系错综复杂,随时间动态变化,即使路口地理位置相距很远,仍可能具有紧密的时空影响关系。其次,目前研究忽略了多路口环境状态和动作之间的时空耦合和迟滞现象。耦合是多路口的动作-动作、状态-状态和动作-状态历史组合在不同的模式下相互作用,并在时空维度上产生不同的效果。迟滞是指状态和动作历史在路口经过相互作用,以一定时空滞后性逐渐扩散到相关区域。然而,现有方法忽略了路口时空影响关系,无法在时空维度上从状态动作组合中提取有用的特征,可能导致智能体产生较差的信号协同控制策略。再次,多路口动作也存在时空异构性问题,因为动作决策粒度应该随着交通流变化频率的不同而变化,以适应平稳或突变的交通状态。时空同构的动作决策会因实时性较低而降低交通通行效率,或由于实时性过高而频繁变换信号灯从而带来安全隐患。

3、申请号为cn202111186563.0的中国发明专利在2022年1月21日公开了一种结合状态预测的深度强化学习交通信号控制方法,对路网环境、车流数据建模,采用深度强化学习(drl)算法基于现有状态对未来交通状态进行预测,将预测的状态将与当前状态一起作为drl的输入从而进行最优决策。但是该技术方案中,由于路口状态具有时空耦合性,基于预测的未来状态做出的信号决策会影响真实的未来状态,从而导致预测未来状态失效,并且仅考虑状态对未来状态和决策的影响,忽视了路口状态动作历史之间的复杂相互作用,会对交通流在时空上的分布带来显著影响,从而导致提取的输入无法为最优决策提供有效特征。

4、申请号为cn202110649830.7的中国发明专利申请在2021年9月24日公开了一种基于邻居感知的多智能体强化学习的交通信号控制方法,将自适应交通信号控制问题建模为邻居感知的马尔可夫博弈,根据道路网络将交叉口建模为连通的智能体,智能体的观测被定义为交叉口和它的邻居信息,训练智能体,使得每个智能体进行交通信号分散控制。该技术方案虽然考虑计算了邻居路口之间的关联性,但忽略了远距离路口也可能具有较强的相互影响,只考虑邻居关联性并不能为决策提取全面高效的特征;而且该方案只考虑对邻居路口状态和奖励基于关联性进行加权以提取特征,未考虑路口动作和状态历史之间时空相互作用对路口车流产生的影响,因此所提取的特征不能准确表示路口交通态势。

5、申请号为cn202210151210.5的中国发明专利申请在2022年9月2日公开了一种基于多智能体深度强化学习的城市交通信号协同控制方法,以降低总旅行时间为目标,通过深度强化学习算法优化交通信号灯配时,生成协调各个子区域交叉口的控制策略。该方案针对周期内每个相位时长进行调节以提升稳定性,无法对真实场景中变化频率复杂的交通流状态做出及时信号决策调整,虽然设计了本地决策和全局决策的通信模块,但仅考虑本地状态和全局状态作为信号决策因素,忽略了交通信号控制问题中多个邻近相关路口状态动作之间紧密的相互耦合和滞后作用,因此无法提取有效特征做出最优决策。

6、申请号为cn202211103815.3的中国发明专利申请在2022年12月23日公开了一种基于多智能体强化学习的交通灯信号控制方法,针对每个交叉路口的交通灯构建多智能体强化学习模型,考虑邻居路口的协作关系,定时采样每个交叉路口的交通环境的观测值训练多智能体强化学习模型,用于生成最优交通灯信号控制方案。该方案只考虑当前时刻状态,忽略了交通流状态的时序异构性,仅采样单一时间片路口状态无法表示动态变化的路口流量特征,对目标路口只考虑了地理位置相邻的路口特征,未考虑区域内其他不相邻但交通流相互影响程度高的路口特征;而且该方案,人工预配置采样决策时间间隔,忽略了真实交通信号控制场景中决策的时空异构性,即每个路口决策时间粒度应随交通状态的变化频率而变化,因此降低了决策的效率和性能。


技术实现思路

1、鉴于上述多路口交通信号控制的现有技术存在的无法提取用于交通信号决策的有效特征、无法适应实际交通变化频率等不足,为了解决多路口交通信号之间相互影响导致交通信号不协同和通行效率低下的问题,本发明提供了一种基于时空特征提取和强化学习的交通信号控制方法,使用监督预训练机制捕捉路口之间的时空依赖关系,动态划分路口区域,使用时空图transformer在协作区域内建模路口动作和状态历史之间的时空影响关系,提取有效的路口特征,基于提取的特征使用多智能体重复动作强化学习自适应决策时间粒度,实现路口信号的区域协同控制,保障交通安全,提高通行效率。

2、本发明提供的基于时空特征提取和强化学习的交通信号控制方法,包括如下步骤:

3、步骤1:基于时空影响程度对路口区域进行动态划分,包括:

4、构建监督式预训练路口时空影响关系架构,包括路口影响程度编码器和状态预测器,路口影响程度编码器用于学习路口之间的相互依赖影响程度关系,状态预测器用于监督训练路口影响程度编码器的性能。路口影响程度编码器输入两个路口的历史状态动作张量,输出路口间的影响程度分数。状态预测器以最小化预测的未来路口状态动作和真实路口状态动作之间的差异为目标,训练路口影响程度编码器。确定路网中的信号控制路口数量、位置及路口区域内目标路口,获取各路口的历史状态动作张量,预训练路口影响程度编码器至收敛;

5、获取当前各路口在前一决策时间步长内的历史状态动作张量,输入训练完成的路口影响程度编码器,获取各路口对路口区域内每个目标路口的影响程度分数矩阵;对每个目标路口选择影响程度最大的前k个路口作为特征协同区域,实现对路口区域的动态划分。

6、步骤2:为每个特征协同区域基于时空图transformer提取路口时空特征,包括:

7、构建时空图建模模块、特征嵌入模块、时序transformer特征提取模块、以及空间图transformer特征聚合模块;时空图建模模块将每一时隙的所有路口建模为时空图,将路口抽象为图的节点,根据路口之间的道路连接情况构建节点的邻接矩阵,将路口历史动作向量和历史动作变化剩余时间作为边的特征,将路口历史状态作为节点的特征;特征嵌入模块将边特征、节点特征和节点位置分别编码映射为嵌入向量;时序transformer特征提取模块利用transformer编码器提取节点和边具有时间依赖性的特征,得到节点和边最终的嵌入特征,并在节点最终嵌入特征中添加节点位置编码;空间图transformer特征聚合模块提取决策意图和交通状态组合之间的交互信息,计算注意力权重,再结合影响程度分数计算堆叠的时空图中边和节点的特征,获取最后一层时空图中各节点的特征。

8、步骤3)基于重复动作多智能体深度强化学习进行交通信号协同控制,包括:

9、将路口作为智能体,每个智能体设置有动作策略网络和动作持续时间策略网络;动作策略网络决策用于输出路口的动作,动作持续时间策略网络用于输出动作策略网络所选择动作的持续时间;使用多智能体深度q网络协调智能体行为,训练网络;

10、智能体利用训练完成的动作策略网络和动作持续时间策略网络对当前输入的局部观测状态进行决策,输出路口在未来多个时间步选择的动作向量和动作向量持续时间。

11、本发明的优点与积极效果在于:

12、(1)对于较大规模多路口场景下的协作,现有方法只考虑按地理位置远近划分邻居,而实际上路口之间关联性错综复杂,随时间动态变化。本发明方法基于时空影响程度构建了一种路口区域动态划分方法,使用监督学习方式预训练路口影响编码器和状态预测器,基于每个路口的状态变化历史,捕获路口之间的相互影响程度,再根据影响程度大小动态控制每个目标路口特征聚合阶段赋予其他路口特征的注意力分数,使得具有高度关联性的路口通过信息传递和联合决策实现更优的信号协调。与只考虑人工设置多路口区域划分的现有技术相比,本发明方法通过基于路口之间影响程度动态进行路口区域划分,提高了特征提取的有效性,从而为后续路口信号协同控制提供更好的协调信息,辅助路口进行信号控制决策。

13、(2)针对多路口协同的特征提取过程面临的区域状态-动作特征的时空耦合和滞后性问题,现存研究的特征提取机制缺乏为协同信号决策提供有效特征的能力,本发明方法建立了一种基于时空图transformer的时空特征提取模型,将区域多路口建模为图,将路口动作向量表示为边特征,将路口状态表示为节点特征,在时空维度上计算出每个时刻对应于每个路口的注意力权重,并为每个路口根据自注意力权重对节点特征进行加权求和,从而得到聚合的区域路口态势信息。每个路口基于模型计算的态势信息向量,结合本地观察向量做出决策,从而让路口利用反应路口未来态势演化的信息,做出更加有效的联合决策。与只依赖当前状态做信号决策的现有技术相比,本发明方法通过基于时空图transformer提取历史状态-动作变化,建模路口、车道、交通状态以及路口信号动作之间的复杂时空作用关系,基于交通趋势为不同路口的信息分配不同的权重,从丰富的多维度信息中聚合有用的向量信息,从而为信号协同控制提供有价值的路口信息。

14、(3)针对多路口信号协同控制过程中面临的路口动作时空异构问题,现有研究缺乏针对复杂动态的交通流实现时空异构灵活决策的能力,本发明方法建立了一种基于重复动作多智能体深度强化学习的交通信号协同控制方法,将每个交叉口建模为智能体,基于聚合的路口时空信息向量协同每个智能体输出动作向量,然后基于动作向量进一步协同输出每个动作的执行时间步数。基于多路口联控特点,构建奖励函数、联合奖励的经验缓冲区收集方法,以及联合策略神经网络参数的训练更新方式,使用集中训练分散执行框架进行模型训练,从而优化区域路口的联合决策,增强区域整体交通的协调能力,平衡信号控制策略的实时性和安全性,增强信号计划对突变交通态势的反应速度。与只考虑预先设置决策时间粒度的现有技术相比,本发明通过基于重复动作多智能体深度强化学习实现交通信号协同控制,根据波动的实时交通状态自适应决策时间粒度和策略终止时间,从而提高联合交通信号控制系统的性能,更好地适应真实复杂环境中突变状态或平稳状态的路口交通态势,综合提升区域多路口的协作能力和应对复杂状态的能力,提升了信号决策的实时性和安全性,降低了决策成本。


技术特征:

1.一种基于时空特征提取和强化学习的交通信号控制方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的方法,其特征在于,所述的步骤1中,路口的状态包含车辆排队长度、车辆等待时间和车辆速度,将每一决策时长中每一时隙的路口状态拼接编码为路口的状态动作张量。

3.根据权利要求1所述的方法,其特征在于,所述的步骤1中,设置k≥5。

4.根据权利要求1或2所述的方法,其特征在于,所述的步骤1中,路口影响程度编码器表示为分别表示t时刻输入的路口i、路口j的历史状态动作张量,θz是训练参数,编码器fz用多层感知机近似,输出路口j对路口i的影响程度分数

5.根据权利要求1所述的方法,其特征在于,所述的步骤2中,设特征嵌入模块的嵌入函数为fe,对边特征、节点特征和节点位置编码映射到dh-维空间,如下:

6.根据权利要求1或5所述的方法,其特征在于,所述的步骤2中,时序transformer特征提取模块使用transformer编码器分别对特征嵌入模块输出的嵌入节点特征和嵌入边特征捕获具有时间依赖性的特征,再使用多层感知机作为聚合函数提取节点和边最终的嵌入特征;对于提取的节点i的最终嵌入特征添加节点i的位置编码,得到节点特征

7.根据权利要求1或5所述的方法,其特征在于,所述的步骤2中,空间图transformer特征聚合模块中,首先计算注意力权重如下:

8.根据权利要求1所述的方法,其特征在于,所述的步骤3中,每个智能体的动作策略网络和动作持续时间策略网络共享一个线性层和一个门控循环单元gru;对于智能体i,由步骤2获得当前t时刻的局部观测状态oi以及全局状态编码s;先将oi通过所述线性层和gru编码为观察特征上下文βo,然后动作策略网络将βo映射为动作,接着,再使用一个线性层将动作编码为动作表示βa,将观测表示βo和动作表示βa拼接为动作持续时间策略网络的输入,由动作持续时间策略网络输出动作持续时间τ。

9.根据权利要求1或2所述的方法,其特征在于,所述的步骤3中,训练智能体的动作策略网络和动作持续时间策略网络时,采用标准的ctde范式训练网络,使用两个qmix混合网络分别混合所有智能体的动作策略网络输出的局部q值和所有智能体的动作持续时间策略网络输出的局部q值,对应估计得到全局行动价值和全局持续时间价值;


技术总结
本发明公开了一种基于时空特征提取和强化学习的交通信号控制方法,用于多路口交通信号协同控制。本发明方法包括:学习路口之间的相互依赖影响程度关系,基于时空影响程度对路口区域进行动态划分;构建时空图建模模块、特征嵌入模块、时序Transformer特征提取模块和空间图Transformer特征聚合模块,将每一时隙所有路口建模为时空图,提取路口时空特征;将路口作为智能体,设置动作策略网络和动作持续时间策略网络,基于重复动作多智能体深度强化学习进行交通信号协同控制。本发明方法能提取有效的路口特征,根据波动的实时交通状态自适应决策动作和时间粒度,实现路口信号的区域协同控制,提升了信号决策的实时性和安全性。

技术研发人员:李静林,魏晓娟,袁泉,罗贵阳,蔡昕恬,冯奕瑄
受保护的技术使用者:北京邮电大学
技术研发日:
技术公布日:2024/5/29
转载请注明原文地址:https://win.8miu.com/read-1156864.html

最新回复(0)