一种集成多模态模型的文本图像匹配方法及系统

专利检索2026-06-22 10

本发明涉及新闻图文匹配，尤其涉及一种集成多模态模型的文本图像匹配方法及系统。

背景技术：

1、本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

2、在今天的数字时代，信息的快速传播给新闻行业带来了前所未有的挑战，新闻文章文本与图像的有机融合变得至关重要，它不仅可以增强新闻报道的可读性，还可以通过视觉元素丰富信息传递。文本-图像重新匹配是一项有挑战性的任务，多媒体评估竞赛中的新闻图像任务(med i aeva l 2023news images)作为一项典型的文本-图像重新配对挑战，其总体目标是更好地理解新闻文章的文本和视觉(图像)内容之间的关系。

3、近年来，随着大模型的出现，它们已被广泛用来解决各种多模态任务，openai开发的预训练cl ip模型经常用于匹配文本和图像，它通过大量数据的对比学习来理解和解释文本和图像，能够在多种视觉任务上表现良好。

4、但是单一的cl ip模型在处理文本和图像之间信息过程中容易遗漏部分信息，无法深度挖掘文本与图像之间的复杂关系，导致匹配结果不够准确。因此，如何实现多模态任务的高效学习，提高信息处理能力，成为目前图文匹配模型亟待解决的技术问题。

技术实现思路

1、针对现有技术存在的不足，本发明的目的是提供一种集成多模态模型的文本图像匹配方法及系统，采用多模态情感分析方法对文本特征和图像特征进行深度信息挖掘，以获得更有针对性的匹配信息，再通过预训练的cl ip模型进行特征提取，并结合多任务对比学习模型选出最优的匹配结果，实现高效的新闻图文匹配。

2、为了实现上述目的，本发明是通过如下的技术方案来实现：

3、本发明第一方面提供了一种集成多模态模型的文本图像匹配方法，包括以下步骤：

4、获取待匹配的新闻文本数据和图像数据；

5、利用多模态情感分析方法分别提取新闻文本数据和图像数据的特征，得到文本特征向量和图像特征向量；

6、利用图文匹配模型对文本特征向量和图像特征向量分别进行编码，并计算文本特征向量和图像特征向量之间的相似度，得到相似度矩阵；

7、对相似度矩阵进行更新，得到文本和图像之间的相似度排名，并根据相似度排名得到第一预测结果；

8、利用多层感知器模型根据更新后的相似度矩阵进行文本和图像分类，按照分类结果进行图文匹配，得到第二预测结果，其中，利用多任务对比学习模型对多层感知器模型进行训练；

9、比较第一预测结果和第二预测结果，选取最优的预测结果作为图文匹配的最终结果。

10、进一步的，所述新闻文本数据包括新闻文章的标题和正文内容。

11、进一步的，所述图文匹配模型为预训练的cl ip模型。

12、进一步的，采用dua l softmax方法对相似度矩阵进行更新，具体步骤为：

13、针对每条文本计算一个相似度向量，根据计算得到的相似度向量构造一个矩阵；

14、之后同时在两个不同的维度上应用softmax函数，在矩阵的每一列上应用softmax函数，转换每个元素为当前列的概率分布，在每一行上应用softmax函数，转换每个元素为当前行的概率分布，得到矩阵的两个维度上的概率分布；

15、根据矩阵的两个维度上的概率分布更新相似度矩阵。

16、进一步的，利用多任务对比学习模型对多层感知器模型进行训练的过程为：

17、对数据集进行简单的清洗，得到训练集；

18、设计阈值用于控制随机采样，根据阈值设置对训练集数据进行标记；

19、利用标记后的训练集对多层感知器模型进行训练。

20、更进一步的，在训练过程中，多任务对比学习模型采用对比损失和二元交叉熵损失对多层感知器模型进行训练，并引入了缩放参数调整对比损失和二元交叉熵损失之间的权重分配。

21、进一步的，采用集成学习中的投票算法比较第一预测结果和第二预测结果，实现图文匹配的最终决策。

22、本发明第二方面提供了一种集成多模态模型的文本图像匹配系统，包括：

23、数据获取模块，被配置为获取待匹配的新闻文本数据和图像数据；

24、特征提取模块，被配置为利用多模态情感分析方法分别提取新闻文本数据和图像数据的特征，得到文本特征向量和图像特征向量；

25、图文匹配模块，被配置为利用图文匹配模型对文本特征向量和图像特征向量分别进行编码，并计算文本特征向量和图像特征向量之间的相似度，得到相似度矩阵；对相似度矩阵进行更新，得到文本和图像之间的相似度排名，并根据相似度排名得到第一预测结果；利用多层感知器模型根据更新后的相似度矩阵进行文本和图像分类，按照分类结果进行图文匹配，得到第二预测结果，其中，利用多任务对比学习模型对多层感知器模型进行训练；

26、决策模块，被配置为比较第一预测结果和第二预测结果，选取最优的预测结果作为图文匹配的最终结果。

27、本发明第三方面提供了一种介质，其上存储有程序，该程序被处理器执行时实现如本发明第一方面所述的集成多模态模型的文本图像匹配方法中的步骤。

28、本发明第四方面提供了一种设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本发明第一方面所述的集成多模态模型的文本图像匹配方法中的步骤。

29、以上一个或多个技术方案存在以下有益效果：

30、本发明公开了一种集成多模态模型的文本图像匹配方法及系统，结合cl ip模型以及多任务对比学习模型的的预测结果进行集成决策，并在cl ip模型特征提取的过程中利用多模态的情感分析方法，实现更高效的信息挖掘，进而提高了后续模型的匹配准确率。通过这种方式，实现了对不同模型优势的最大化利用，以提高整体模型的准确性和鲁棒性。

31、本发明采用集成预训练模型的策略(ensemb l e pre-trai ned mu l t imoda lmode l s)，结合了最新的深度学习方法和多模态大模型，通过引入cl ip模型和多任务对比学习模型，结合dua l softmax方法，文本-图像重新匹配任务提供了一种创新的解决方案，能够极大地提高新闻行业在处理和呈现信息方面的能力，同时对多模态任务的处理方式产生重大的影响。通过这种集成策略，能够更准确地理解和解释文本与图像之间的复杂关系，进一步推动多模态理解和应用的发展。

32、本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

技术特征：

1.一种集成多模态模型的文本图像匹配方法，其特征在于，包括以下步骤：

2.如权利要求1所述的集成多模态模型的文本图像匹配方法，其特征在于，所述新闻文本数据包括新闻文章的标题和正文内容。

3.如权利要求1所述的集成多模态模型的文本图像匹配方法，其特征在于，所述图文匹配模型为预训练的clip模型。

4.如权利要求1所述的集成多模态模型的文本图像匹配方法，其特征在于，采用dualsoftmax方法对相似度矩阵进行更新，具体步骤为：

5.如权利要求1所述的集成多模态模型的文本图像匹配方法，其特征在于，利用多任务对比学习模型对多层感知器模型进行训练的过程为：

6.如权利要求5所述的集成多模态模型的文本图像匹配方法，其特征在于，在训练过程中，多任务对比学习模型采用对比损失和二元交叉熵损失对多层感知器模型进行训练，并引入了缩放参数调整对比损失和二元交叉熵损失之间的权重分配。

7.如权利要求1所述的集成多模态模型的文本图像匹配方法，其特征在于，采用集成学习中的投票算法对图文匹配的预测结果进行最终决策。

8.一种集成多模态模型的文本图像匹配系统，其特征在于，包括：

9.一种计算机可读存储介质，其特征在于，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行权利要求1-7中任一项所述的集成多模态模型的文本图像匹配方法。

10.一种终端设备，其特征在于，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行权利要求1-7中任一项所述的集成多模态模型的文本图像匹配方法。

技术总结
本发明公开了一种集成多模态模型的文本图像匹配方法及系统，涉及新闻图文匹配技术领域。该方法包括步骤：利用多模态情感分析方法得到文本特征向量和图像特征向量；利用图文匹配模型进行编码，并计算文本和图像特征向量之间的相似度；对相似度矩阵进行更新，根据相似度排名得到第一预测结果；利用多层感知器模型根据更新后的相似度矩阵进行文本和图像分类，得到第二预测结果；比较第一预测结果和第二预测结果，选取最优的预测结果作为图文匹配的最终结果。本发明采用多模态情感分析方法对文本特征和图像特征进行深度信息挖掘，再通过预训练的CLIP模型进行特征提取，并结合多任务对比学习模型选出最优的匹配结果，实现高效的新闻图文匹配。

技术研发人员：王宜敏,汪太行,徐小曼,姜也
受保护的技术使用者：青岛科技大学
技术研发日：
技术公布日：2024/5/29

转载请注明原文地址:https://win.8miu.com/read-1164237.html

专利

最新回复(0)