视频标签处理方法、装置、计算机设备和存储介质与流程

专利检索2025-05-29 28

本申请涉及计算机，特别是涉及一种视频标签处理方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术：

1、随着视频内容的日益丰富和多样化，用户对于高效、准确地浏览和检索视频信息的需求愈发迫切。为满足这一需求，通过分析视频内容以为视频打上标签的视频标签处理任务应运而生。针对视频内容确定对应的标签，能够帮助用户快速理解视频内容，实现精准搜索和个性化推荐，还为内容管理和广告定位提供了有力支持。然而，目前针对各种视频内容的标签识别准确性有限。

技术实现思路

1、基于此，有必要针对上述技术问题，提供一种能够提高视频标签确定准确性的视频标签处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

2、第一方面，本申请提供了一种视频标签处理方法。所述方法包括：

3、确定待处理的视频，针对视频提取得到至少两种模态的模态信息；

4、基于至少两种模态的模态信息，分别按照至少两种模态的特征维度进行交叉检索，得到至少两种模态的模态信息各自的多模态检索标签；

5、根据至少两种模态的模态信息各自的多模态检索标签，确定针对视频的至少一个候选标签；

6、基于至少一个候选标签和至少两种模态的模态信息进行标签预测，获得针对视频的视频标签。

7、第二方面，本申请还提供了一种视频标签处理装置。所述装置包括：

8、模态信息提取模块，用于确定待处理的视频，针对视频提取得到至少两种模态的模态信息；

9、交叉检索模块，用于基于至少两种模态的模态信息，分别按照至少两种模态的特征维度进行交叉检索，得到至少两种模态的模态信息各自的多模态检索标签；

10、候选标签确定模块，用于根据至少两种模态的模态信息各自的多模态检索标签，确定针对视频的至少一个候选标签；

11、标签预测模块，用于基于至少一个候选标签和至少两种模态的模态信息进行标签预测，获得针对视频的视频标签。

12、第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以上视频标签处理方法的步骤。

13、第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以上视频标签处理方法的步骤。

14、第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以上视频标签处理方法的步骤。

15、上述视频标签处理方法、装置、计算机设备、存储介质和计算机程序产品，对于待处理的视频，基于针对视频提取的至少两种模态的模态信息，分别按照至少两种模态的特征维度进行交叉检索，根据得到的至少两种模态的模态信息各自的多模态检索标签确定视频的至少一个候选标签，并基于至少一个候选标签和至少两种模态的模态信息进行标签预测，得到针对视频的视频标签。基于视频的至少两种模态的模态信息进行交叉检索，根据交叉检索得到的多模态检索标签确定至少一个候选标签，并结合候选标签和至少两种模态的模态信息进行标签预测，可以引入候选标签进行标签预测，增强了标签预测所针对的信息，从而提高了视频标签确定的准确性。

技术特征：

1.一种视频标签处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述至少两种模态的模态信息，分别按照所述至少两种模态的特征维度进行交叉检索，得到所述至少两种模态的模态信息各自的多模态检索标签，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述至少两种模态的模态信息与所述参考视频在所述至少两种模态下的参考模态特征之间的特征匹配结果，从所述多模态特征标签库中检索得到所述至少两种模态的模态信息各自的多模态检索标签，包括：

4.根据权利要求2所述的方法，其特征在于，所述至少两种模态包括视觉模态和文本模态；所述至少两种模态的模态信息包括所述视频的视觉模态信息和文本模态信息；所述多模态特征标签库中包括参考视频在所述视觉模态下的视觉参考模态特征和所述视觉参考模态特征对应的视觉参考标签，以及所述参考视频在所述文本模态下的文本参考模态特征和所述文本参考模态特征对应的文本参考标签；

5.根据权利要求4所述的方法，其特征在于，所述将所述视觉特征分别与所述视觉参考模态特征和所述文本参考模态特征进行视觉特征匹配，并根据视觉特征匹配结果从所述视觉参考标签和所述文本参考标签中得到所述视觉模态信息的多模态检索标签，包括：

6.根据权利要求4所述的方法，其特征在于，所述将所述文本特征分别与所述视觉参考模态特征和所述文本参考模态特征进行文本特征匹配，并根据文本特征匹配结果从所述视觉参考标签和所述文本参考标签中得到所述文本模态信息的多模态检索标签，包括：

7.根据权利要求4所述的方法，其特征在于，所述基于所述视觉模态信息和所述文本模态信息分别进行特征提取，得到视觉特征和文本特征的步骤通过多模态特征提取模型实现，所述多模态特征提取模型的训练步骤包括：

8.根据权利要求7所述的方法，其特征在于，所述通过待训练的初始多模态特征提取模型针对所述视觉内容和所述描述文本分别进行特征提取，得到所述视觉内容的样本对视觉特征和所述描述文本的样本对文本特征，包括：

9.根据权利要求1所述的方法，其特征在于，所述至少两种模态包括视觉模态和文本模态；所述至少两种模态的模态信息包括视觉模态信息和文本模态信息；

10.根据权利要求9所述的方法，其特征在于，所述基于所述拼接文本和所述视觉模态信息对应的视觉特征进行标签预测，获得针对所述视频的视频标签，包括：

11.根据权利要求10所述的方法，其特征在于，所述特征对齐模型和所述标签预测模型的训练步骤包括：

12.根据权利要求11所述的方法，其特征在于，所述基于第一样本视频的第一样本视觉特征以及针对所述第一样本视频的样本描述信息，训练得到中间特征对齐模型，包括：

13.根据权利要求1至12任意一项所述的方法，其特征在于，所述根据所述至少两种模态的模态信息各自的多模态检索标签，确定针对所述视频的至少一个候选标签，包括：

14.一种视频标签处理装置，其特征在于，所述装置包括：

15.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至13中任一项所述的方法的步骤。

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至13中任一项所述的方法的步骤。

17.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至13中任一项所述的方法的步骤。

技术总结
本申请涉及一种视频标签处理方法、装置、计算机设备、存储介质和计算机程序产品。所述方法涉及人工智能技术，包括：确定待处理的视频，针对视频提取得到至少两种模态的模态信息；基于至少两种模态的模态信息，分别按照至少两种模态的特征维度进行交叉检索，得到至少两种模态的模态信息各自的多模态检索标签；根据至少两种模态的模态信息各自的多模态检索标签，确定针对视频的至少一个候选标签；基于至少一个候选标签和至少两种模态的模态信息进行标签预测，获得针对视频的视频标签。采用本方法能够提高视频标签确定的准确性。

技术研发人员：陈世哲
受保护的技术使用者：腾讯科技（深圳）有限公司
技术研发日：
技术公布日：2024/5/29

转载请注明原文地址:https://win.8miu.com/read-1154366.html

专利

最新回复(0)