本发明属于计算机视觉和深度学习领域,具体涉及一种用于室内语义slam系统的轻量级目标检测网络设计方法。
背景技术:
1、同步定位与地图构建(simultaneous localization and mapping,slam)是指移动机器人在没有环境先验信息的情况下,通过自身搭载的传感器,于运动过程中建立所处环境的地图模型,同时估计自身的运动。slam同时包含定位与建图两个问题,被认为是实现机器人自主性的关键问题之一,对机器人的导航、控制、任务规划等领域有重要的研究意义。
2、语义slam技术将slam技术与深度学习技术相结合,用深度学习中神经网络强大的特征表征和数据拟合能力,可以作用于特征提取、数据关联、深度估计、光流估计以及回环检测等vslam现有模块,全面改善系统性能;此外,也可以侧重场景理解,增强vslam系统的感知能力。
3、作为语义slam系统中的一大组成部分,用于语义信息获取的目标检测网络性能对语义slam系统性能有着重要影响。slam系统由于需要部署在移动机器人平台,对系统的实时性要求较高,因此需要设计一种轻量级的语义信息获取目标检测网络;同时,语义信息获取的准确性直接影响了语义slam系统的定位精度与建图效果。目前针对室内语义slam系统的目标检测网络相关研究主要聚焦在增加检测目标的种类以增强网络的泛用性,缺乏对特定使用场景的针对性网络设计,导致语义slam整体性能较差,难以达到预期效果。因此,面向室内动态场景下语义slam系统需设计一种专门的目标检测网络,能够对室内语义slam系统中常见的动态多尺度、多形变目标进行准确识别,提升室内语义slam系统的定位精度与环境感知效果。
技术实现思路
1、本发明提供一种用于室内语义slam系统的轻量级目标检测网络设计方法,能够为室内语义slam系统提供快速准确的语义信息,从而提升语义slam系统的定位精度、建图效果以及运行效率。
2、为达到以上目的,本发明采用以下技术方案:
3、一种用于室内语义slam系统的目标检测网络设计方法,包括以下步骤:
4、步骤一:建立基于yolov8n的轻量化目标检测网络为基础框架;
5、步骤二:设计基于可变形卷积的特征提取模块与可变形注意力特征增强模块;
6、步骤三:设计基于dyhead的目标检测头部网络。
7、以上所述步骤中,步骤一中基于yolov8n的轻量化目标检测框架包括以下步骤:
8、(a)用于提取图像特征的轻量级主干网络backbone
9、backbone主干网络用于对图像进行特征提取,获得图像的整体特征图;yolov8n的主干网络设计采用了cspnet(cross stage partial network)的设计思路,通过将底层特征图分为两部分,对一部分进行操作,再与保持不变的另一部分跨阶层结合,以优化网络结构,提升速度与准确率;
10、(b)颈部特征融合网络
11、neck颈部网络位于backbone主干网络与head目标检测头之间,yolov8n的颈部网络使用fpn+pan网络结构,实现了对主干网络提取的特征进行融合,提升了网络对多尺度目标的检测能力;
12、(c)目标检测头部网络
13、目标检测头部网络根据输入的特征图实现最终的目标检测。yolov8n使用无需锚框(anchor free)的结构,同时对其进行了解耦,将损失函数拆分成了分类损失与位置损失,回归分支用于进行目标的识别与目标框的定位,分类的分支用于对目标的分类,最后根据两个分支的结果实现对目标的检测。
14、步骤二通过对步骤一中的主干网络结构修改优化来实现,具体包括以下步骤:对主干网络中的最后一个c2f特征提取模块,使用可变形卷积代替二维卷积运算,可变形卷积可以根据检测目标的不同调整卷积核结构,从而更好的提取目标的特征,通过使用可变形卷积核,提升了网络对动态目标的敏感性,扩大了感受野,增强了网络的鲁棒性;之后将主干网络sppf模块输出的20×20大小的特征图作为可变形注意力模块(deformableattention,da)的输入,提升主干网络特征图的表征能力,并将特征增强后的输出传入颈部网络,通过颈部网络自底向上传播,提升网络对小目标以及动态目标的识别与定位精度。
15、步骤三通过使用dyhead结构替代步骤一中的目标检测头部网络来实现,dyhead模块由三部分πl,πs,πc组成,分别对应尺度自注意力、空间自注意力和通道自注意力;首先,将颈部网络获得的3个不同尺度大小的特征图进行连接,获得整个图像的特征张量其中,l代表特征的尺度维度;s为特征图的宽高乘积,代表空间维度;c表示通道数,则图像特征张量的注意力函数为:
16、
17、dyhead通过在尺度感知的特征层、空间感知的空间位置以及任务感知的输出通道内连贯地结合多头自注意机制,显著提高了目标检测头的表示能力。
18、有益效果:本发明提供了一种用于室内语义slam系统的目标检测网络设计方法,为室内语义slam系统提供一种准确、快速的语义信息获取方法,基于yolov8n轻量化目标检测框架,通过在主干网络采用基于可变形卷积网络结构的c2f模块增强了主干网络的特征提取能力;通过使用可变形注意力模块增强了主干网络生成特征图的特征表征能力;通过使用动态目标检测头,结合尺度自注意力、空间自注意力和通道自注意力,全面提升了网络对室内动态环境中多尺度、多形变目标的检测能力。voc数据集实验结果证明,本发明能够实现对室内环境下常见多尺度、多形变目标的准确快速识别,为室内语义slam系统提供快速准确的语义信息,从而提升语义slam系统的定位精度、建图效果以及运行效率。
1.一种用于室内语义slam系统的目标检测网络设计方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的用于室内语义slam系统的目标检测网络设计方法,其特征在于,步骤一中目标检测网络的整个网络结构共分为用于图像特征提取的主干网络、用于特征融合的颈部特征融合网络、用于输出目标检测结果的目标检测头部网络三大部分;所述颈部特征融合网络位于主干网络与目标检测头部网络之间,用于对主干网络提取的特征进行融合。
3.根据权利要求2所述的用于室内语义slam系统的目标检测网络设计方法,其特征在于,所述主干网络由5个cbs模块以及3个c2f模块、1个c2f-dcn模块和一个sppf模块构成。
4.根据权利要求3所述的用于室内语义slam系统的目标检测网络设计方法,其特征在于,步骤二中引入可变形卷积网络,可变形卷积在标准二维卷积操作的基础上,为采样点添加偏移量δpn,采用可变形卷积后的采样点p0的特征值为:
5.根据权利要求4所述的用于室内语义slam系统的目标检测网络设计方法,其特征在于,利用可变形卷积网络模块替换c2f模块中的卷积部分,仅对主干网络中最后一处的c2f模块进行替换,其余cbs模块及c2f模块中仍使用标准卷积核。
6.根据权利要求3所述的用于室内语义slam系统的目标检测网络设计方法,其特征在于,步骤二中引入可变形注意力模块,将在进行多尺度特征特征提取与融合的sppf模块后添加可变形注意力模块,并将sppf获得的特征图作为可变形注意力模块的输入,并将特征增强后的输出传入颈部网络,通过颈部网络自底向上传播。
7.根据权利要求2所述的用于室内语义slam系统的目标检测网络设计方法,其特征在于,步骤三中所述dyhead模块由三部分πl,πs,πc组成,分别对应尺度感知自注意力模块、空间感知自注意力模块和通道自注意力模块;所述dyhead模块通过在尺度感知的特征层、空间感知的空间位置以及任务感知的输出通道内连贯地结合多头自注意机制。
8.根据权利要求7所述的用于室内语义slam系统的目标检测网络设计方法,其特征在于,所述尺度感知自注意力模块πl对不同尺度的特征图赋予不同的权重,以此使得网络自适应地根据尺度图的重要性进行融合,增强目标检测头的尺度感知能力,其公式为:
9.根据权利要求7所述的用于室内语义slam系统的目标检测网络设计方法,其特征在于,所述空间感知注意力模块πs,用于增强网络对不同空间位置的判别能力,首先使用dcn进行稀疏采样,然后在相同的空间位置上对各尺度的特征进行聚合,具体公式为:
10.根据权利要求7所述的用于室内语义slam系统的目标检测网络设计方法,其特征在于,所述通道自注意力模块πc通过自适应开/关特征通道来应对多种任务,增强网络的泛化性,具体公式为: