本公开实施例涉及数据处理,尤其涉及一种基于生成式ai大语言模型的多模态场景风险判定方法。
背景技术:
1、目前,场景风险判定在智能交通安全中扮演着至关重要的角色,它不仅是自动驾驶虚拟仿真安全测试的核心,而且对自动驾驶测试场景的衍生和高危场景库的构建具有极其重要的意义。正确的风险判定是确保道路安全、指导智能车辆做出合适决策的基础。
2、然而,传统的交通分析方法由于过分依赖简化模型和有限的数据维度,常常无法充分理解包含图像、视频反馈以及文本信息等多模态维度的数据集,导致现有的风险评估体系未能充分利用这些蕴含丰富环境信息的异构数据源。因此,整合异质数据并从中得出精确的风险判断,成为智能网联汽车领域亟需攻克的一大难题。
3、可见,亟需一种识别效率、精准度和鲁棒性高的基于生成式ai大语言模型的多模态场景风险判定方法。
技术实现思路
1、有鉴于此,本公开实施例提供一种基于生成式ai大语言模型的多模态场景风险判定方法,至少部分解决现有技术中存在识别效率、精准度和鲁棒性较差的问题。
2、本公开实施例提供了一种基于生成式ai大语言模型的多模态场景风险判定方法,包括:
3、步骤1,获取多模态数据,形成目标数据集,其中,所述多模态数据包括包含视觉数据和文本数据;
4、步骤2,应用albef算法提取目标数据集对应的关键特征,并将其融合成综合场景表示;
5、步骤3,根据预设的安全指标和大语言模型评估综合场景表示对应的风险程度并与风险阈值比较,判断综合场景表示对应的场景是否为高危风险场景。
6、根据本公开实施例的一种具体实现方式,所述步骤2具体包括:
7、步骤2.1,将视觉数据经过切分成patch,随后通过线性变换层输入transformer模型中,提取视觉特征,以及,将文本数据经过分词和tokenization流程,然后由文本编码器处理,得到文本特征;
8、步骤2.2,以图像-文本对比学习为核心,通过下采样和规范化细化特征向量进行特征对齐,形成视觉特征和文本特征的正样本;
9、步骤2.3,利用多模态编码器整合视觉特征和文本特征的正样本,输出综合考虑各类特征的综合场景表示。
10、根据本公开实施例的一种具体实现方式,所述步骤2.2包括:
11、将各动量编码器归一化的视觉特征和文本特征分别记为g′v(v′cls)和g′w(w′cls),以基于softmax函数标准化的方式,计算并优化图像到文本和文本到图像之间的相似度得分:
12、
13、
14、其中,s(i,t)=gv(vcls)tg′w(w′cls);s(t,i)=gw(wcls)tg′v(v′cls),τ表示可学习温度参数,定义yi2t(i)和yt2i(t)为同一场景不同模态数据one-shot的相似度,负对的概率为0,正对概率为1,itc损失定义为p和y之间的交叉熵h;
15、以itc作为训练是的优化目标,使相关的图像-文本对在嵌入空间中靠近,得到视觉特征和文本特征的正样本。
16、根据本公开实施例的一种具体实现方式,步骤2.3具体包括:
17、在多模态编码器中,视觉特征和文本特征通过交叉注意力机制进行融合,视觉特征作为键和值,文本特征作为查询,以及,文本特征作为键和值,视觉特征作为查询,随后经过mlm和itm任务的训练:
18、
19、
20、模型生成一个联合特征表示作为综合场景表示:u=mlp([v′cls,w′cls]);
21、其中,v′cls=crossattn(vclsw);w′cls=crossattn(wcls,v)。
22、根据本公开实施例的一种具体实现方式,所述步骤3具体包括:
23、步骤3.1,设定基于时间的指标、基于减速度的指标和基于能量的指标,形成预设的安全指标;
24、步骤3.2,通过调用大语言模型根据预设的安全指标评估综合场景表示对应的风险程度并与预设的风险阈值比较,结合text prompt和预设的评价方法监测并标识出高危风险场景。
25、根据本公开实施例的一种具体实现方式,所述transformer模型包括编码器层、多头注意力、前馈全连接网络和解码器层,其中,得到编码器层包括多头自注意力机制和前馈全连接网络,所述多头注意力包含多个并行的自注意力头,所述解码器包括多个相似的层,每层包括两个多头自注意力模块和一个前馈全连接网络。
26、根据本公开实施例的一种具体实现方式,所述transformer模型的具体处理流程包括:
27、将输入序列被转化为嵌入向量,对于每个偶数时间步2i,使用正弦函数来创建位置向量中的一个元素,其中pos是位置索引,dmodel是嵌入维度,i是维度索引,对于每个奇数时间步2i+1,使用余弦函数来创建位置向量中的元素,然后将这些位置向量按元素加到对应的嵌入向量上,引入位置信息;
28、编码器接受已加入位置信息的嵌入向量作为输入,将多头自注意力机制和前馈全连接网络的输出与其输入相加,然后进行层标准化操作;
29、将输入线性变换为三个不同的矩阵,分别用于生成查询(query)向量q、键向量k和值向量v,随后,使用点积来计算q和k的相似度得分s=qkt,表示输入中的每个位置如何关注其他位置,得分s被缩放,通过除以(dk是键向量维度),接着对缩放后的得分应用softmax函数,将注意力权重与值向量v相乘,得到一组查询的注意力函数:
30、
31、在不同的投影维度并行地执行注意力函数,得到多头自注意力的输出:
32、multihead(q,k,v)=concat(head1,…,headh)wo
33、
34、其中,h表示多头注意力的数量;
35、每个编码器层的自注意力模块输出首先与原始输入相加形成残差连接,然后输入到层归一化,归一化后的输出作为前馈网络的输入,经过前馈网络的线性层和非线性激活函数relu:ffn(x)=max(0,xw1+b1)w2+b2,网络输出再次经过残差连接和层归一化,得到编码器层的最终输出;
36、第一个多头自注意力模块使用前瞻性掩码,第二个多头自注意力模块使用编码器层的输出作为键和值,而使用解码器的第一个多头自注意力模块的输出作为查询,解码器的每个多头自注意力模块输出都经过残差连接和层标准化,然后输入到前馈网络,最后解码器的输出通过一个额外的线性层和softmax层,转换为预测的下一个单词的概率分布。
37、根据本公开实施例的一种具体实现方式,所述基于时间的指标的表达式为
38、
39、其中,x表示车辆位置(i为跟随车辆,i-1为领先车辆),l表示车长;v表示速度。
40、根据本公开实施例的一种具体实现方式,所述基于减速度的指标的表达式为
41、
42、其中,t表示时间间隔;
43、
44、其中,madr表示最大制动速率,δt表示时间步长,ti和tfi分别表示初始和最终时间步长,ti是总行程时间;
45、
46、
47、
48、其中,ssdl和ssdf分别表示前车和后车的停车距离,vf和vl分别表示流动车辆和前车的车速,td表示延迟时间,s表示间隙距离,dm表示最大减速度。
49、根据本公开实施例的一种具体实现方式,所述基于能量的指标的表达式为
50、
51、
52、其中,v1和v2分别表示两辆具有潜在碰撞轨迹的车辆碰撞前的速度,m1和m2表示两车的质量。
53、本公开实施例中的基于生成式ai大语言模型的多模态场景风险判定方案,包括:步骤1,获取多模态数据,形成目标数据集,其中,所述多模态数据包括包含视觉数据和文本数据;步骤2,应用albef算法提取目标数据集对应的关键特征,并将其融合成综合场景表示;步骤3,根据预设的安全指标和大语言模型评估综合场景表示对应的风险程度并与风险阈值比较,判断综合场景表示对应的场景是否为高危风险场景。
54、本公开实施例的有益效果为:通过本公开的方案,通过结合文本、图像和视频数据,基于transformer算法和大语言模型,本发明充分利用了各种类型的数据,提高了系统对现实场景的理解能力。这种多模态方法可以捕获单一数据源无法提供的丰富信息,从而为风险评估提供更全面的视角。同时通过调用已经训练好的大语言模型,通过预设ssm指标和实时监测,本发明能够快速地识别并标识高危场景,为采取应急措施提供依据,从而增强了实时响应能力。
1.一种基于生成式ai大语言模型的多模态场景风险判定方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述步骤2具体包括:
3.根据权利要求2所述的方法,其特征在于,所述步骤2.2包括:
4.根据权利要求3所述的方法,其特征在于,步骤2.3具体包括:
5.根据权利要求4所述的方法,其特征在于,所述步骤3具体包括:
6.根据权利要求5所述的方法,其特征在于,所述transformer模型包括编码器层、多头注意力、前馈全连接网络和解码器层,其中,得到编码器层包括多头自注意力机制和前馈全连接网络,所述多头注意力包含多个并行的自注意力头,所述解码器包括多个相似的层,每层包括两个多头自注意力模块和一个前馈全连接网络。
7.根据权利要求6所述的方法,其特征在于,所述transformer模型的具体处理流程包括:
8.根据权利要求5所述的方法,其特征在于,所述基于时间的指标的表达式为
9.根据权利要求5所述的方法,其特征在于,所述基于减速度的指标的表达式为
10.根据权利要求5所述的方法,其特征在于,所述基于能量的指标的表达式为