本发明涉及交通事故风险研判领域,具体涉及一种基于可解释随机森林的交通事故风险研判方法。
背景技术:
1、面对日渐复杂化的交通情况,交通事故风险研判有助于提前感知发现并提醒驾驶员规避风险。对于城市交通管理部门而言,高效精准的交通事故风险研判模型不仅有利于事故的提前发现、事先准备、快速到达及处理,还能通过对交通事故发生机理以及事故致因分析改善道路条件,降低城市交通事故发生率,有效促进城市交管水平的提升。
2、在事故风险研判方面,通常采用两类模型方法:基于数理统计的回归模型和人工智能数据挖掘算法。模型可解释性可以从三个维度进行分类:从解释范围可分为全局解释和部分解释;从解释性来可分为主动解释和被动解释;从解释方式可以分为按照逻辑规则解释、按照语义解释、按照属性解释以及通过示例解释四种方式。
3、交通事故研判要求对导致事故的致因因素进行影响程度分析,已有方法大多关注影响因素的显著性,缺乏解释性。基于博弈论的shapley值是满足效率性(efficiency),对称性(symmetry),虚拟性(dummy)和可加性(additivity)的唯一解决方案,在此基础发展的shap方法不仅满足这些要求,还具有三个额外属性:局部准确性(local accuracy),缺失性(missingness)和一致性(consistency),使其能够对所训练模型中各个变量的边际贡献进行有效的计算。shap(shapleyadditive explanations)用于解释各种复杂的黑盒模型,其核心目标在于量化每个特征对于模型最终结果的贡献。其基本设计思想是首先计算每个特征在被添加到模型时的边际贡献,然后考虑该特征在所有可能特征组合中的不同边际贡献,最终取其均值,得到该特征的shap值。
4、在事故风险研判方面,现有的研究大多使用回归模型,模型收敛速度低、精度不足且缺乏对事故致因的定量解释。
技术实现思路
1、针对现有技术中存在的不足,本发明通过改进随机森林的方法对交通事故风险的可能性以及严重程度进行研判,针对模型解释性差的难题,提供种基于交通事故、交通流及交通运行环境数据的城市道路事故风险研判方法,采用shap方法对模型进行解释并探究事故发生的致因以及影响机理。最后进行实例分析验证模型的性能,对实际场景给出研判结果。
2、为解决上述技术问题,本发明提供的技术方案是:
3、一种基于可解释随机森林的交通事故风险研判方法,包括如下步骤:
4、si.获得研究区域的事故统计数据和事故影响因素作为输入数据;所述事故影响因素包括交通流因素、道路因素及环境因素数据;
5、s2.对s1的输入特征数据进行预处理,形成训练集;
6、s3.从交通流因素、道路因素及环境因素三要素的角度构建研究区域的道路交通事故风险影响指标体系;
7、s4.构建基于网格搜索改进随机森林模型的城市道路交通事故风险研判模型;
8、s4.1将随机森林模型的超参数取值范围离散化并构建为网格参数空间:
9、
10、s4.2对所述网格参数空间使用笛卡尔积创建所有参数组合,选取参数组合初始值和步长;
11、s4.3从s2形成的训练集中有放回地随机抽取样本,构建新训练集d′:
12、d′=(x1,y1),(x2,y2),...,(xn,yn) (2)
13、其中:xi是抽样的输入数据样本特征,yi是对应的样本标签,即是否发生事故、事故类型;
14、s4.4从所有输入数据样本特征中随机选择一部分特征,构建决策树时只使用这部分特征进行划分,构建特征子集f′:
15、f′=f1f2,...,fm (3)
16、其中:fi是从输入数据样本特征中随机选择得到的特征;
17、s4.5使用s4.4获得的特征子集f′和s4.3构建的新训练集d′构建决策树回归模型t,计算决策树回归模型t的mse和r-square指标:
18、
19、
20、s4.6通过步长确定下一组超参数,重复s4.2、s4.3和s4.4并选择其中mse和r-square指标最好的决策树回归器模型为交通事故风险研判模型。
21、s5.对s4.6建成的交通事故风险研判模型采用shap方法进行解释;
22、对建成的交通事故风险研判模型采用shap方法进行解释,基于shapely值,通过shap摘要图以及shap依赖图方法,将不同类别的影响因素对交通事故以及不同分类下的交通事故重要度、影响方向进行分析,确定道路交通事故风险各影响因素中shap value最大的因素以及影响方向、权重大小和推荐的数值控制区间;
23、某一因素对道路交通事故风险的影响力shap值公式如下所示:
24、
25、其中,g代表解释模型,z’∈{0,1}m表示相应的特征是否可见,即该类型事故是否发生,其中1表示是,0表示否;
26、s5.1假设s2中的训练集中影响事故发生的自变量有p个,β代表每个自变量各自的权重,定义第j个自变量对结果的贡献为:
27、φj=βjxj-e(βjxj)=βjxj-βje(xj) (8)
28、其中,e(βjxj)是第j个自变量的平均影响估计值;
29、s5.2将选定样本的所有特征的贡献取和,可得:
30、
31、s5.3结合决策树模型的结构,对所有可能的特征组合计算shapely值并加权求和可得:
32、
33、其中:s是构建的决策树中影响事故发生的自变量合集的子集,val(s)是在特征组合s下的模型输出值。
34、优选的,
35、所述s2数据预处理包括异常值删除与修正、错误数据纠正、缺失数据修补。
36、优选的,
37、所述s4.6通过计算决策树回归器模型的精确率、召回率和特异度指标,对决策树回归器模型的拟合优度进行评估,挑选最优的模型及其超参数组。
38、优选的,
39、所述s2及s4.2利用python编程语言进行大数据处理。
40、优选的,
41、所述s1中事故统计数据,包括事故id、事故所在位置的经纬度、事故所在街区道路、事故发生时间、数据采集时间。
42、优选的,
43、所述s1中道路因素数据包括车道数量、道路磨损程度、道路等级。
44、优选的,
45、所述s1中交通流因素包括所在道路车速、道路车头时距、道路时间占用率。
46、优选的,
47、所述s1中环境因素数据包括天气状况、土壤要素和自然灾害。
48、优选的,
49、所述s3建立指标体系的影响因素可根据实际研究需要进行更改。
50、本发明的有益效果是:
51、本发明提供了一种基于可解释随机森林的交通事故风险研判方法,考虑交通流因素、道路因素及环境因素三方面因素,采用网格搜索方法确定超参数的最优参数,建立基于改进随机森林的道路交通事故风险研判模型,研判是否发生事故。为了量化影响因素对于事故风险研判结果的贡献,提出基于shap的针交通事故风险致因解释方法。
52、本发明解决了真实路网环境下,道路交通事故黑点难以鉴别,事故风险难以评估,道路交通事故致因分析困难,事故影响机理解析不清的难题,实现了城市道路交通事故风险的研判与致因分析。
53、本发明有助于提前感知发现并提醒驾驶员规避风险,为促进城市交管水平的提升提供理论和技术支持。
54、本发明不仅计算误差较小且收敛速度快,效率较高,并且具有较强的可解释性,可以为道路交通事故风险研判以及风险致因的动态分析奠定理论基础并提供技术支持。
1.一种基于可解释随机森林的交通事故风险研判方法,其特征在于,包括如下步骤:
2.如权利要求1所述的一种基于可解释随机森林的交通事故风险研判方法,其特征在于,
3.如权利要求1所述的一种基于可解释随机森林的交通事故风险研判方法,其特征在于,
4.如权利要求1所述的一种基于可解释随机森林的交通事故风险研判方法,其特征在于,
5.如权利要求1所述的一种基于可解释随机森林的交通事故风险研判方法,其特征在于,
6.如权利要求1所述的一种基于可解释随机森林的交通事故风险研判方法,其特征在于,
7.如权利要求1所述的一种基于可解释随机森林的交通事故风险研判方法,其特征在于,
8.如权利要求1所述的一种基于可解释随机森林的交通事故风险研判方法,其特征在于,
9.如权利要求1所述的一种基于可解释随机森林的交通事故风险研判方法,其特征在于,