一种基于记忆信息传输的文本指代视频对象分割方法

专利检索2025-01-11  11


本发明适用于计算机视觉与自然语言处理的交叉中的文本指代视频对象分割技术。


背景技术:

1、文本指代视频对象分割任务(rvos)是将自然语言表达所引用的目标对象从所有视频帧中分割出来的过程。与引用图像分割任务(ris)文本指代图像分割任务不同,rvos对感知视觉和语言之间的语义一致性、帧与帧之间语义的连续性都提出了非常高的要求。因此,rvos不仅要考虑空间语义,还要考虑时间语义,并确保文本指代实例的连续性。所以,rvos是一项具有挑战性的媒体任务。

2、为了应对这一挑战,现阶段的文本指代视频对象分割方法设计了一系列策略来获得良好的性能。根据模型一次处理的视频帧数,我们将目前的方法分为:单帧法和多帧法。单帧方法通常使用一个简单的模型,每次只对当前帧进行推理,这样的方法模型简单但时间连续性上存在缺失。多帧方法以视频片段为输入,主要采用帧间共享查询方式和特征关联方式。帧间共享查询方式使用一组查询从多个连续帧中检索分段对象。使用相同的查询在帧之间建立了参考对象的相关性,这有助于帧间的交互,以弥补序列连续性的不足。然而,模型对同一查询的过度依赖可能导致一帧被错误识别,随后的帧都产生错误的结果。特征关联方式混合了多帧视觉特征,然后将其与语言特征融合。多帧特征的混合提取是对时间连续的一种补充,然而,这种方法也可能导致不同帧之间的特征混淆,从而使模型无法正确识别所引用的对象。


技术实现思路

1、为了克服上述现有技术的缺点,本发明提出一种基于记忆信息传输的文本指代视频对象分割方法。该方法将前一帧作为我们的记忆信息,并将记忆信息应用到当前帧的对象推理中。在此过程中,为了传播内存信息,使用内存信息生成当前帧的伪掩码来指导当前帧的推理。这样做可以在帧之间建立联系,并在不引入额外混淆信息的情况下补充时间连续性。为了在单帧视觉信息输入下得到准确的分割结果,我们需要在完成时间建模的同时完成空间建模。因此,该方法将记忆信息的传播与文本-视觉特征交互结合起来,通过文本引导的特征交互过滤出与语言相关的视觉特征,完成空间建模。该方法的提出,主要解决的技术问题是通过引入记忆信息,来补全模型时间连续性的缺失,增强帧间指代实例的联系,以提高模型的分割性能。

2、为了实现上述目的,本发明通过以下技术方案实现:

3、基于指称解析与感知增强的文本指代视频对象分割方法,其包括步骤:

4、1.视觉和文本特征提取:

5、对输入的视频帧和自然语言文本进行特征提取。

6、对于视频帧,采用resnet-50网络提取外观特征和运动特征两种视觉特征。外观特征由输入当前帧图像提取,运动特征由经过计算得到的当前帧和前帧帧差提取,两种视觉特征作为输入可以使模型获得更丰富的视觉信息。

7、对于自然语言文本,使用lstm提取单词特征,使用glove嵌入将每个单词嵌入到向量中,得到文本特征。

8、2.视觉和文本特征融合:

9、为了提取出与文本相关的视觉特征,在步骤1中编码视觉特征的过程中加入融合模块,将视觉特征与文本特征进行融合,得到编码后的融合特征。利用文本进一步过滤编码后的融合特征,得到与文本最相关的视觉特征。

10、3.记忆信息的提取:

11、为了提取记忆信息,采用网络resnet-50作为value编码器和key编码器分别提取前帧分割结果信息和前帧图像信息。同时,使用key编码器对当前帧图像进行编码。

12、4.记忆特征匹配:

13、将步骤3提取到的当前帧和记忆帧key信息进行匹配,将得到的匹配得分与记忆value相结合,从而得到当前帧的伪分割掩码。

14、5.对象分割掩码生成:

15、将步骤4中得到的伪分割掩码与步骤2中得到的融合视觉特征相结合,伪分割掩码可指导当前帧的分割。结合后的特征被送入一个卷积块中,得到文本所指代的对象分割掩码。



技术特征:

1.一种基于记忆信息传输的文本指代视频对象分割方法,其特征在于:


技术总结
一种基于记忆信息传输的文本指代视频对象分割方法适用于计算机视觉与自然语言处理的交叉领域。该方法将前一帧作为记忆信息,并将记忆信息应用到当前帧的对象推理中。为了传播内存信息,使用内存信息生成当前帧的伪掩码来指导当前帧的推理。这样做可以在帧之间建立联系,并在不引入额外混淆信息的情况下补充时间连续性。为了在单帧视觉信息输入下得到准确的分割结果,需要在完成时间建模的同时完成空间建模。该方法将记忆信息的传播与文本‑视觉特征交互结合起来,通过文本引导的特征交互过滤出与语言相关的视觉特征,完成空间建模。该方法通过引入记忆信息,来补全模型时间连续性的缺失,增强帧间指代实例的联系,以提高模型的分割性能。

技术研发人员:胡永利,刘子衿,王一菲,谭红臣,尹宝才
受保护的技术使用者:北京工业大学
技术研发日:
技术公布日:2024/5/29
转载请注明原文地址:https://win.8miu.com/read-1148480.html

最新回复(0)