一种基于全局编码和非对称卷积的视频目标分割方法

专利检索2025-07-02  7


本发明涉及一种视频图像分割技术,特别涉及一种半监督的视频目标分割方法。


背景技术:

1、视频目标分割任务,是在给定视频序列的每一帧中,区分前景和背景像素,预测出目标区域像素的掩膜,对一个或多个目标对象进行跟踪和分割。在具有挑战性的环境条件下,比如,目标出现变形、遮挡、快速运动以及摄像机移动的动态环境中,能够从视频序列的背景中分离出特定的运动的对象。现有的视频目标分割算法根据其学习方法,大致可以分为无监督学习和半监督学习两类。无监督视频对象分割,是在没有样本标注时,自动将每帧图像的前景与背景分离,分割出最主要的对象。无监督方法是对运动信息的依赖程度比较高的,但在复杂的场景中存在不确定性。在没有任何先验的情况下,这类方法很难从一个视频序列中识别出特定的感兴趣目标。

2、相比之下,本发明主要考虑的是半监督的视频目标分割(semi-supervised videoobject segmentation,svos),即在给定第一帧或某几帧目标的真实分割掩膜的情况下,将后续帧中所有的像素分类为前景和背景,得到目标的分割结果。在整个视频序列中目标随着时间发生明显的外观变化,以及目标遮挡、快速运动等情况,半监督的视频目标分割任务存在着一些困难与挑战。视频目标分割的一个重要问题,就是如何对背景和目标外观进行有效表示。为了达到这个目的,之前大多数的方法通过在线微调独立处理每一帧,这种单帧模型能够得到较高的分割精度,获得的性能也较好。例如,osvos是该方向上的开创性工作,将图像分类上预训练的cnn卷积网络用于视频目标分割任务,只使用第一帧作为参考,独立检测后续每一帧的目标。由于在线微调过程没有集成到网络的离线训练中,不能实现端到端训练。这种方法忽略了帧之间的信息,而且计算量大,测试时间长,在速度上无法达到实时。

3、另外一类是基于掩码传播的方法,视频对象分割作为一种前馈掩膜细化的过程,将前一帧预测的掩膜前馈传播,与当前帧的特征图进行级联,利用视频帧之间的信息,指导网络找出当前帧的目标。msk提出将视频目标分割作为一个掩膜细化问题,利用卷积神经网络对前一帧预测的掩膜进行细化。agame引入外观模块学习目标和背景特征分布概率的生成模型,在一次前向传递中学习目标外观和背景的表示,外观模块的学习和预测阶段都是完全可微分的,使整个分割网络实现端到端训练。这类方法考虑了相邻帧中像素运动的时空联系,能够适应物体外观和位置变化相较平滑的运动,但是容易受到时间间断的影响。

4、还有一类方法是基于匹配的方法。从给定的初始帧中学习目标的外观,提取初始帧和当前帧的特征,对每帧图像进行像素匹配的计算。这类算法对时间的依赖性不强,因此处理不匹配和漂移问题时具有较好的鲁棒性。然而,这种方法主要是基于初始帧的目标外观检测,常常不能适应外观的变化,当目标发生旋转等情况表现出不同的视觉表征,可能会导致无法匹配,并且难以区分具有相似外观的对象。


技术实现思路

1、针对视频图像的自动分割时存在速度慢、易受到时间间断的影响、不能适应外观的变化等问题,提出了一种基于全局编码和非对称卷积的目标分割网络,实现视频图像高效精准的分割,为目标跟踪打下基础。所提出的全局编码器和非对称卷积模块,更好地实现了目标外观表示,增强了分割网络的鲁棒性。

2、本发明的技术方案为:

3、一种基于全局编码和非对称卷积的视频目标分割方法,包括以下步骤:

4、首先,将获取到的带有标签的视频序列图像输入网络,通过反馈的特征定位目标区域,对原始图像进行剪裁,减少背景中的干扰。全局编码器与相似性编码器作为两个网络分支提取到互为补充的特征,提高网络对目标的辨别能力;再利用非对称卷积的模块将两个互为补充的特征进行深层的融合,获得目标特征;最后采用残差上采样对目标特征进行解码生成预测掩膜,从而实现了对视频图像中的目标分割;

5、所提出的全局编码器充分利用了整张图像中的信息,有利于区分背景信息与目标特征,进一步识别出目标外观,并且采用了非对称卷积的模块,实现特征的深层融合,具体包括以下步骤:

6、步骤一:获取数据集:

7、实验用吊装数据集是由手工标注构建的,视频数据来源于在多个角度、不同的光线环境下,拍摄吊装运输物体的作业过程;视频中主要包括吊车、吊装运送的物体以及环境中的其它物体;将所拍摄的视频片段转换成连续的视频序列图像;使用图像标注工具进行标签制作,手工分割出吊装物体的边缘轮廓,在轮廓线闭合区域内的所有像素点都是属于目标,从而完成了像素级的人工标注;并分成训练集和验证集;

8、步骤二:建立视频目标分割模型:

9、整体网络包含4个部分:相似性编码器和全局编码、深度特征融合模块、基于残差上采样的解码器和反馈回路,具体如下:

10、相似性编码器利用孪生网络,得到特征相关性,对当前帧的物体与目标外观的相似性进行编码;全局编码器对当前帧进行全局特征的提取,为输入图像中的目标提取更细节且丰富的特征;相似性编码器的相关性特征为全局编码器区分目标和背景干扰做了适当的补充,两个编码器提取的目标特征使分割网络更具有鲁棒性;

11、由于深层特征富含丰富的信息,采用了非对称卷积的模块,结合1×k+k×1和k×1+1×k卷积层来有效地扩大感受野;对编码器分支得到的相似性特征和全局特征进行深层的特征融合;

12、为保证边缘细节等信息不丢失,在解码过程中,根据残差学习的思想,使网络充分利用浅层特征,为获得更多的空间语义信息,将全局编码器骨干网络提取的低层特征以跳跃连接的方式,与高层特征进行双线性插值上采样,最终生成预测掩膜;按照sat方法的更新策略,反馈回路将预测的二值掩膜与输入图像相乘,并融合之前帧的预测掩膜,进行目标特征的更新;根据sat方法中的剪裁策略和选择机制,使用相似性编码器中添加的回归头或者分割网络的预测掩膜生成最小包围框,根据该包围框,确定待搜索目标的位置,裁剪出下一帧相对较小的目标区域的图像作为网络输入;

13、步骤三:训练:

14、由于相似性编码器是基于siamfc++网络,因此根据siamfc++的训练策略,使用在多个目标跟踪数据集上预训练好的权重;全局编码器的特征提取骨干网络resnet50-m是在imagenet数据集上进行预训练权重;

15、步骤四:完成基于全局编码和非对称卷积的视频目标分割模型的建立,进行实验和分析。

16、优选的,步骤一中,使用图像标注工具labelme进行标签制作。

17、进一步的,步骤一中,吊装数据集包含6个视频序列和3个不同的目标类别,每个视频序列中含有单个目标,每段视频时长为6~10s,生成300帧左右的图像分成训练集和验证集,每张图像的大小为1920×1080。

18、优选的,步骤二中,k=3。

19、进一步的,步骤二中,原始输入图像大小为1920×1080,分别剪裁出包含目标区域的大小为127×127、303×303、257×257的图像输入各支路,进行特征提取,使网络更加关注目标,减少图像中的背景干扰。

20、进一步的,步骤二中,相似性编码器和全局编码具体为:

21、相似性编码器和全局编码器分别是提取目标特征和全局特征的编码器;相似性编码器是基于alexnet骨干网络的siamfc++跟踪网络架构,参照siamfc++网络结构,按照sat网络设置的剪裁策略,根据初始帧的目标区域和当前帧的目标区域,作为网络输入的模板图像和搜索图像;基于孪生网络,利用特征相关性对当前帧的物体与目标外观的相似性进行编码;模板图像大小为127×127,搜索图像大小为303×303,模板图像中给定的目标作为整个视频序列中感兴趣的目标,指导网络学习目标特征;

22、全局编码器是基于ir模块进行背景特征的提取,模块中的骨干网络为resnet50的变体,即resnet50-m,为了获取更多全局信息,根据不同大小的卷积核改变视野范围,利用小卷积核增大了感受野,以及对通道改变可以增强特征的提取;类似地,对于全局编码器的输入,在目标周围剪裁一个相对较小的区域,来减少背景的干扰,从而全局编码器可以为输入图像中的目标提取更细节且丰富的特征;

23、全局编码器提取的特征为全局特征,缺乏对目标的辨别能力;相似性编码器的相关性特征为全局编码器区分目标和背景干扰做了适当的补充,两个编码器提取的目标特征使分割网络更具有鲁棒性。

24、进一步的,步骤二中,深度特征融合模块具体为:

25、为了克服卷积运算的局部性,采用了全局卷积中的global convolution block模块,通过结合1×k+k×1和k×1+1×k卷积层来有效地扩大感受野;以编码器分支得到的相似性特征图和全局特征图作为输入,相似性特征图经过对通道上的卷积操作,与全局特征相加,在全局卷积层进行非对称卷积操作,输出通过一个残差块,有效融合特征,从而获取更丰富的目标特征;非对称卷积层将一个k×k卷积核分为两个非对称卷积k×1和1×k的卷积核,通过不同的感受野提取不同的特征;另一方面,使用非对称卷积也可以减少网络参数量的增加。

26、进一步的,步骤二中,基于残差上采样的解码器具体为:

27、为保证边缘细节等信息不丢失,在解码过程中,使网络充分利用浅层特征;首先将反馈回路更新的目标特征进行卷积操作,输出的通道数调整为256,随后再与深度特征融合模块的特征级联;为了充分利用浅层网络的特征信息,根据残差学习的思想,为获得更多的空间语义信息,将全局编码器骨干网络提取的低层特征以跳跃连接的方式,与高层特征进行双线性插值上采样,最终生成预测掩膜。

28、进一步的,步骤四中,分析是采用的评价指标如下:

29、采用基准数据集davis2017的标准评价指标,即区域相似度jaccard和轮廓精度f-score;其中,区域相似度为预测的二值分割掩膜与标注真值之间的交并比,是比值的形式,分子是预测掩膜与标注真值的前景的交集,分母是两者的并集;区域相似度j公式表示为:

30、

31、其中,y表示预测值,t表示标注真值;轮廓精度是描述预测分割结果的边界是否与标注真值的边界对应;轮廓精度f定义式:

32、

33、其中,p表示precision,即精确率;r表示recall,即召回率;还采用区域相似度j和轮廓精度f的均值,记作j&f,作为综合的评价指标。

34、进一步的,步骤三中,

35、在训练网络时,使用了吊装数据集、davis2017训练集、coco训练集和youtube-vos训练集中的样本数据;整个网络的训练过程有20个epoch,即训练的迭代次数,每个epoch从训练样本中随机选择150000张图像进行训练,使得在20个epoch后能够尽可能地训练到所有训练样本;在训练时batchsize的大小设置为32,使用动量系数为0.9的sgd优化器,采用交叉熵损失函数作为网络的损失函数;学习率的设定是采用预热的优化方法使模型稳定,在最开始的两个epoch中,学习率设定为10-5线性增加到10-2,后18个epoch过程是使用余弦退火学习率;损失函数为交叉熵损失函数。

36、本发明的有益效果在于:

37、本发明提出了一种基于全局编码和非对称卷积的目标分割网络,可用于吊装安全监控。本发明算法能有效地对目标外观表示,提升了网络对特定目标的识别能力,并取得较高的准确性。在分割任务中取得了良好的性能和实时速度,实现了端到端的半监督视频目标分割。


技术特征:

1.一种基于全局编码和非对称卷积的视频目标分割方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于全局编码和非特征卷积的视频目标分割方法,其特征在于,步骤一中,使用图像标注工具labelme进行标签制作。

3.根据权利要求1所述的基于全局编码和非特征卷积的视频目标分割方法,其特征在于,步骤一中,吊装数据集包含6个视频序列和3个不同的目标类别,每个视频序列中含有单个目标,每段视频时长为6~10s,生成300帧左右的图像分成训练集和验证集,每张图像的大小为1920×1080。

4.根据权利要求1所述的基于全局编码和非特征卷积的视频目标分割方法,其特征在于,步骤二中,k=3。

5.根据权利要求1所述的基于全局编码和非特征卷积的视频目标分割方法,其特征在于,步骤二中,原始输入图像大小为1920×1080,分别剪裁出包含目标区域的大小为127×127、303×303、257×257的图像输入各支路,进行特征提取,使网络更加关注目标,减少图像中的背景干扰。

6.根据权利要求1所述的基于全局编码和非特征卷积的视频目标分割方法,其特征在于,步骤二中,相似性编码器和全局编码具体为:

7.根据权利要求1所述的基于全局编码和非特征卷积的视频目标分割方法,其特征在于,步骤二中,深度特征融合模块具体为:

8.根据权利要求1所述的基于全局编码和非特征卷积的视频目标分割方法,其特征在于,步骤二中,基于残差上采样的解码器具体为:

9.根据权利要求1所述的基于全局编码和非特征卷积的视频目标分割方法,其特征在于,步骤四中,分析是采用的评价指标如下:

10.根据权利要求1所述的基于全局编码和非特征卷积的视频目标分割方法,其特征在于,步骤三中,


技术总结
本发明涉及一种视频图像的目标分割方法,提出了一种基于全局编码和非对称卷积的视频目标分割方法,针对视频图像的自动分割时存在速度慢、易受到时间间断的影响、不能适应外观的变化等问题。首先,将一系列带有标签的视频图像输入网络,分别通过全局编码器与相似性编码器两个网络分支提取到互为补充的特征,从而获得对目标外观的有效表示;然后利用非对称卷积的模块将两个互为补充的特征进行深层的融合;再采用残差上采样进行解码生成预测掩膜,最终实现了对视频图像中的目标分割。能有效地对目标外观表示,提升了网络对特定目标的识别能力,并取得较高的准确性。在分割任务中取得了良好的性能和实时速度,实现了端到端的半监督视频目标分割。

技术研发人员:王朝立,周明君,孙占全
受保护的技术使用者:上海理工大学
技术研发日:
技术公布日:2024/5/29
转载请注明原文地址:https://win.8miu.com/read-1155944.html

最新回复(0)