一种具有深度感知能力的单目3D目标检测方法及系统

专利检索2025-04-24  17


本发明涉及目标检测,尤其涉及一种具有深度感知能力的单目3d目标检测方法及系统。


背景技术:

1、随着科学和技术的不断发展,自动驾驶技术取得了巨大的推动力。而环境感知技术作为自动驾驶汽车的眼睛也扮演着越来越重要的作用。3d目标检测是自动驾驶感知系统中的一个基本步骤,旨在3d空间中定位一组目标并识别其类别。相机可以在驾驶场景中给目标提供丰富的颜色和纹理信息,但缺少深度感知能力,这使得从单目图像中进行3d目标检测成为一项具有挑战性的任务,对此,现有技术提出了如中国专利cn115346210a公开的一种单目相机3d目标检测系统及其3d目标检测方法,使用深度网络提取图像数据集中每一张图像的特征,利用多层感知机,根据图像的特征预测物体的3d信息以及预测目标的质量分数,可提高单目相机目标检测的质量,但其针对的目标图像有所限制,缺少深度感知能力,对于截断目标和复杂环境下的目标难以得到准确的结果。


技术实现思路

1、有鉴于此,本发明的目的在于提出一种具有深度感知能力的单目3d目标检测方法及系统,以解决截断目标和复杂环境下的3d目标检测准确性不高的问题。

2、基于上述目的,本发明提供了一种具有深度感知能力的单目3d目标检测方法,包括以下步骤:

3、s1、获取图像数据;

4、s2、将图像数据输入到单目深度估计网络dorn中,获得图像的深度信息,并得到深度特征图;

5、s3、使用特征提取网络dla-120提取原始图像,得到原始图像特征,使用resnet-18提取深度特征图,得到深度图特征;

6、s4、使用具有深度位置的transformer特征融合编码器聚合原始图像特征和深度图特征,得到融合特征;

7、s5、使用二维检测头从融合特征中检测出二维框中心点、二维框长度及其相应分类置信度,使用三维检测头从融合特征检测三维框参数,包括三维框中心点在图像上的投影中心点、三维框的长宽高、物体观测角及深度置信度;

8、s6、综合分类置信度和深度置信度对融合特征做特征对齐从而增强特征,得到增强后的特征,并基于增强后的特征预测得到三维框深度;

9、s7、基于增强后的特征和深度信息,使用联合深度感知的非极大值抑制算法进行候选框排序,找到最适合的目标检测框和对应的目标类别,完成单目3d目标检测任务。

10、优选地,步骤s3进一步包括:

11、从dla-102图像特征提取主干网络提取原始图像的语义及纹理信息,有效聚合高层语义信息和底层纹理信息,获得原始图像特征;

12、从计算量较小的残差网络resnet-18提取深度特征图的三维位置信息,获得深度图特征。

13、优选地,步骤s4进一步包括:

14、使用两个膨胀编码器对原始图像特征和深度图特征进行编码,使原始图像特征和深度图特征的特征增强,经过膨胀编码器的原始图像特征和深度图特征f是两个尺寸为hf×wf×c的二维特征,其中,hf是特征高度,wf是特征宽度,c是特征通道数;

15、将原始图像特征和深度图特征经过层归一化重排列为尺寸为hfwf×c的一维序列之后相加,并送入transformer编码器,经过深度位置嵌入的特征之后被送入一个由六个transformer基本结构堆叠而成的transformer块结构进行编码,得到一维序列编码;

16、将得到的一维序列编码重排列为尺寸为hf×wf×c的二维特征得到融合特征。

17、优选地,步骤s6进一步包括:

18、s61、选择深度置信度最高的锚框anchor*,以及与之对应的预测三维框的投影中心相对于特征点的目标中心偏移量(δxp,δyp);

19、s62、分别计算中心偏移量及形状偏移量,并将这两个偏移量合并为一个偏移量替代原始可变形卷积中由卷积操作生成的偏移量,进行新的可变形卷积,基于新的可变形卷积输出增强后的特征,并基于增强后的特征预测出三维框深度。

20、优选地,步骤s61具体包括:

21、找到深度置信度最高的索引m,并用索引m从锚框集合a中选取出目标锚框(ha,wa),其中ha和wa分别表示锚框的高度和宽度;

22、使用索引m从预测的中心偏移量的集合中选取出目标中心偏移量(δxp,δyp)。

23、优选地,步骤s62具体包括:

24、将中心偏移量及形状偏移量合并为一个偏移量的计算公式如下:

25、

26、

27、

28、

29、式中,s代表下采样倍数,kh,kw代表卷积核的长度和宽度,代表形状偏移量,代表中心偏移量,oi,oj代表最终用于可变形卷积的偏移量,i,j是在特征图两个轴上的索引;

30、根据深度置信度和其对应分类置信度的乘积生成一个mask,mask用于替代可变形卷积中由卷积操作生成的掩码δmk,从而避免对背景物体进行特征对齐;

31、在最终的特征输出时采用残差连接加上原始的输入特征,保留一定的背景特征,得到增强后的特征,并基于增强后的特征预测出三维框深度。

32、优选地,步骤s7具体包括:

33、将增强后的特征和深度信息输入到3d检测器中;

34、将物体框按照分类置信度scls和深度置信度sdepth的乘积进行排序,计算排序第一的物体框与其余物体框的交并比iou:

35、

36、将iou大于设定阈值的物体框移除,利用非极大值抑制算法将排序第一的物体框记为输出框并从候选框中移除,并不断重复此过程直至没有候选物体框,得到物体框排序,找到最适合的目标检测框和对应的目标类别,非极大值抑制算法的公式为:

37、

38、式中,si为候选区域对比计算后的得分,si为候选区域的初始得分,m为得分最高的候选区域,bi为当前候选区域,iou(m,bi)为m和bi之间的iou,nt为设定的阈值。

39、优选地,本方法还包括通过检测网络对3d目标检测任务进行评估,检测网络的损失函数由分类损失lcls,二维检测损失l2d,三维检测损失l3d构成,整体的损失函数如下:

40、

41、其中,λ1,λ2,λ3为正则化权重,lcls,l2d,l3d为网络预测结果与人工标签计算的损失,为网络预测结果与软标签计算的损失,即标签正则化项,分类损失lcls计算过程如下:

42、

43、其中,c′是由与目标框iou最高锚框的索引所决定的分类结果,ci是第i种类别的预测结果;

44、二维检测损失l2d计算过程如下:

45、

46、其中,b2′d是预测的二维框,是真实的二维框,使用iou损失可使预测框在整体的结果上更接近真实结果;

47、三维检测损失l3d计算过程如下:

48、

49、p3d={tx,ty,tw,th,tl,tα}3d

50、

51、其中,b3′d是预测的三维框,是真实的三维框,tx,ty是三维框投影中心的偏移量,tw,th,tl是三维框尺寸的偏移量,tα是三维框观测角偏移量,p3d是三维框的总偏移量,de是网络对物体框的预测深度,dg是实际真实深度,σ是深度不确定度,对于深度的损失采用异方差随机不确定度描述预测深度的可靠度。

52、本发明还提供一种具有深度感知能力的单目3d目标检测系统,包括:

53、特征提取模块,用于对实时输入的图像数据进行处理,使用单目深度估计网络dorn估计图像的深度信息,并得到深度特征图,使用特征提取网络dla-120提取原始图像,得到原始图像特征,使用resnet-18提取深度特征图,得到深度图特征;

54、特征融合模块,用于对提取的原始图像特征和深度图特征进行处理,利用具有深度位置的transformer特征融合编码器聚合原始图像特征和深度图特征,得到融合特征;

55、特征增强模块,用于对融合特征进行特征增强,所述特征增强包括基于可变形卷积对齐的目标形状来计算形状偏移量,提高深度预测的准确度,通过深度置信度和分类置信度联合指导特征对齐,以增强深度特征的感知能力;

56、3d目标检测模块,将增强后的特征输入到3d检测器中,根据增强后的特征对目标进行识别判断,并利用联合深度感知的非极大值抑制算法进行候选框排序,输出带有类别标签和对应的3d检测框的目标信息。

57、本发明的有益效果:

58、1.利用单目相机和深度图辅助的方法进行环境感知,通过融合图像特征和深度图特征、增强融合后的特征输入到3d目标检测器网络中进行3d目标检测,输出3d目标检测后的检测框和对应的目标类别,对复杂环境下的目标进行检测,可以保证目标检测的准确性,同时对小目标检测和远距离的目标都能保证安全性和稳定性;

59、2.本发明充分利用2d图像信息,利用transformer特征融合编码器,融合图像特征和深度图特征,增强网络的深度感知能力,实现长距离的特征感知;并基于可变形卷积的特征增强方法,利用深度置信度和分类置信度联合指导特征对齐,提高网络对截断目标的检测能力;

60、3.本发明从非极大值抑制算法出发,联合分类置信度和深度置信度,这是一种新的具有深度感知的非极大值抑制算法,解决了部分深度预测值较准确但分类置信度低的候选框被抑制的问题,弥补仅基于图像检测带来的误检和漏检风险。


技术特征:

1.一种具有深度感知能力的单目3d目标检测方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的具有深度感知能力的单目3d目标检测方法,其特征在于,步骤s3进一步包括:

3.根据权利要求1所述的具有深度感知能力的单目3d目标检测方法,其特征在于,步骤s4进一步包括:

4.根据权利要求1所述的具有深度感知能力的单目3d目标检测方法,其特征在于,步骤s6进一步包括:

5.根据权利要求4所述的具有深度感知能力的单目3d目标检测方法,其特征在于,步骤s61具体包括:

6.根据权利要求5所述的具有深度感知能力的单目3d目标检测方法,其特征在于,步骤s62具体包括:

7.根据权利要求1所述的具有深度感知能力的单目3d目标检测方法,其特征在于,步骤s7具体包括:

8.根据权利要求1所述的具有深度感知能力的单目3d目标检测方法,其特征在于,所述方法还包括通过检测网络对3d目标检测任务进行评估,检测网络的损失函数由分类损失lcls,二维检测损失l2d,三维检测损失l3d构成,整体的损失函数如下:

9.一种具有深度感知能力的单目3d目标检测系统,其特征在于,包括:


技术总结
本发明涉及目标检测技术领域,尤其涉及一种具有深度感知能力的单目3D目标检测方法及系统,利用单目相机图像联合深度估计图辅助和特征增强方法进行环境感知,通过Transformer特征融合编码器融合深度图特征和图像特征、基于可变形卷积的增强特征输入到3D目标检测器网络中进行3D目标检测,并利用一种具有深度感知的非极大值抑制算法输出最合适的3D目标检测框和对应的目标类别,解决了截断现象下的目标检测,可以保证目标检测的准确性,同时对小目标检测和远距离的目标都能保证安全性和稳定性。

技术研发人员:时培成,董心龙,梁涛年,蒋爱强,周梦如,武新世,王文冲,张荣芸,戈润帅,王建平,潘道远,张秀琴
受保护的技术使用者:安徽工程大学
技术研发日:
技术公布日:2024/5/29
转载请注明原文地址:https://win.8miu.com/read-1152940.html

最新回复(0)