1.本发明属于图像检索技术领域,具体地,涉及一种基于卷积神经网络弱监督类别无关的图像相似性检索系统及其控制方法。
背景技术:
2.近年来,基于内容的图像检索(content-based image retrieval,cbir)取得了显著的进展。cbir的目标是从一个巨大的数据库中高效地检索出与查询图像最相似的图像。不同的检索框架使用不同的图像表示和索引方案作为搜索依据。例如,词袋模型(bag of word,bow)使用局部描述符对感兴趣的图像区域进行编码,即尺度不变特征和颜色特征等。此外,研究者提出了多种后处理方法,以细化检索图像的相关性。
3.在给定查询和候选图像的情况下,传统的基于局部的cbir框架首先检测每个图像的局部感兴趣的区域。然后通过判断两个区域之间的距离是否小于给定的固定阈值来找出所有的匹配对。然而,同一物体或场景的图像可能因光照和视角的变化而发生判断错误。另外,由于传统的词袋模型没有考虑局部图像块的空间结构,在量化的过程中丢失了信息,不相关的图像可能会共享很多局部描述符,例如鸟和飞机共享蓝天,这可能会导致误匹配。因此,传统的基于局部的固定阈值的静态匹配方法很难在多种应用中达到最优。
4.卷积神经网络(convolutional neural network,cnn)提供鉴别特征,广泛应用于机器视觉领域。利用cnn模型获取到的高层特征可以有效的对图像进行紧凑或整体的表示。传统方法的性能上限不高,基于神经网络的方法鲁棒性不够高,检索时间随数据集容量增大而线性增长。因此,对于图像检索方法的研究,还有很长的路要走,存在很多急需解决的问题。
技术实现要素:
5.本发明为了解决传统图像检索方法的效率较差的问题,提出了一种基于卷积神经网络弱监督类别无关的图像相似性检索系统及其控制方法。
6.本发明是通过以下方案实现的:
7.一种基于卷积神经网络弱监督类别无关的图像相似性检索系统:
8.所述系统包括输入端,roi提取模块和相似度比较模块;
9.所述输入端输入两种数据,分别为查询图像和数据库图像;图像数据不含标签信息,两种数据的网络权重相同;
10.所述roi提取模块接收输入端数据,利用区域提议网络rpn生成输入图像的roi候选提议,生成的候选提议作为相似度比较模块的输入;
11.所述相似度比较模块对输入的候选提议通过卷积神经网络进行相似度比较,得出相似度比较结果。
12.一种应用于基于卷积神经网络弱监督类别无关的图像相似性检索系统的控制方
法:
13.所述方法具体包括以下步骤:
14.步骤一:当系统处于离线阶段,输入端传输数据库图像,对数据库图像进行预处理roi提取模块,将图像的兴趣区域roi与背景信息分离提取,并通过k-means和canopy结合的方式对离线数据库中的roi对象进行聚类存储;
15.步骤二:当系统处于在线阶段,输入端传输查询图像,对查询图像进行预处理,使用roi提取模块将图像的兴趣区域roi与背景信息分离提取;
16.步骤三:通过相似度比较模块,将在线阶段提取的数据与离线阶段聚类存储的数据库图像的roi进行相似性比较,找到最相似的图像。
17.进一步地,在步骤三中,
18.在离线数据库roi对象进行聚类后,当查询图像输入时,首先与各个簇的簇心目标进行相似度比较;根据相似度得分进行簇内的进一步检索,最终得到相似度最高的图像。
19.进一步地,
20.roi提取模块用于生成候选提议,所述roi提取模块包含两个区域提议网络,分别用于处理查询图像和数据库图像;两个rpn共享相同的网络结构和学习权重,对于每幅图像,rpn的损失函数定义为:
21.l(i)=l1(rs(a),s) λ1r(s)l2(r
p
(a),g)
ꢀꢀꢀ
(1)
22.其中,l1(
·
)为分类损失,l2(
·
)用于候选框的回归,λ1用于平衡这两种损失,r(s)是标识函数来标记背景类别的回归损失,s是ground-truth类集合,a表示archor,g是ground-truth位置,rs(a)是类别分数,r
p
(a)是定位框的位置;s由两个类组成,即背景或roi。
23.进一步地,相似度比较模块对输入数据的损失函数定义为:
[0024][0025]
l3(o)=l1(rs(a),s) λ2r(s)l2(r
p
(a),g)
ꢀꢀꢀ
(3)
[0026]
其中,表示两张输入图像的位置细化损失,l4表示提议对的匹配损失,λ是结合这两种损失的超参数。
[0027]
进一步地,
[0028]
处于离线阶段,对于数据库图像id进行预处理;利用roi提取模块将id中的目标中的目标提取出来并聚类存储;
[0029]
处于在线阶段,对于查询图像iq进行预处理;利用roi提取模块从iq提取目标提取目标
[0030]
处于在线阶段,得到查询图像iq的roi集之后,将其与数据库图像id的聚类过的roi集的簇心子集进行相似度比较;在此过程中,通过计算oq和的笛卡尔积来构建roi对的集合
[0031][0032]
当确定了相似度最高的簇心之后,再进行簇内的相似度比较,这一过程与上述簇间相似度比较过程相同;执行完以上操作后,网络输出与查询图像中的roi目标最相似的数据库目标,进而确定最相似的原始图像。
[0033]
进一步地,
[0034]
所述相似度比较模块有三个卷积层和两个全连接层组成;每个卷积层具有512个滤波器,同时卷积核大小为3
×
3;
[0035]
进行批量归一化;选用非线性relu,采用2
×
2最大池化;
[0036]
第1个全连接层是128维的relu;第2个全连接层是1维函数用于生成0到1之间的关系得分;
[0037]
首先,roi提取模块生成候选提议对,并且每个候选提议对被输入到roi池化层中获取2个7
×7×
512的特征映射;然后将这两个特征图连接起来并输入到相似度比较模块,计算他们之间的相似度:
[0038]
相似度比较模块的损失函数定义为:
[0039][0040]
其中,r(
·
)是相似度分数,使用均方损失作为目标函数。
[0041]
本发明有益效果
[0042]
(1)本发明在网络训练过程中,将数据图像分为两个不相交的集合分别用来训练和测试,每个集合由同一类目标对组成;在这一过程中,本发明使用的是不带标签信息的图像数据;网络通过学习比较对象的内在相似逻辑来实现相似度比较;
[0043]
(2)本发明通过k-means和canopy结合的方式对离线数据库中的roi对象进行聚类;对离线数据库roi对象进行聚类后,当查询图像输入时,首先与各个簇的簇心目标进行相似度比较;根据相似度得分进行簇内的进一步检索,最终得到相似度最高的目标;
[0044]
(3)本发明的相似度比较模块采用候选提议来比较候选提议对的相似性并优化其边界框,对候选提议边界框的回归做了改进,细化roi目标区域,降低相似度比较过程中的运算量;
[0045]
(4)本发明用到的相似度检测网络,即关系网络具有学习相似性度量的能力,且不需要支持集来进行训练;关系网络的目标是学习一个可转移的深度度量,这是一个可学习的非线性度量;从已有的实验结果可以得出结论,该方法在少样本学习方面优于孪生网络。
附图说明
[0046]
图1为本发明的图像相似性检索网络框架;
[0047]
图2为本发明的关系网络;
[0048]
图3为本发明不同数据集下与无后处理模块方法的map性能对比;
[0049]
图4为本发明不同数据集下与采用不同后处理模块方法的map性能对比。
具体实施方式
[0050]
下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例;基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0051]
结合图1至图4,
[0052]
一种基于卷积神经网络弱监督类别无关的图像相似性检索系统:
[0053]
所述系统包括输入端,roi提取模块和相似度比较模块;
[0054]
所述输入端输入两种数据,分别为查询图像和数据库图像;图像数据不含标签信息,两种数据的网络权重相同;
[0055]
所述roi提取模块接收输入端数据,利用区域提议网络(region proposal network,rpn)生成输入图像的roi候选提议,生成的候选提议作为相似度比较模块的输入;
[0056]
所述相似度比较模块对输入的候选提议通过卷积神经网络进行相似度比较,网络以端到端的方式进行训练和测试,得出相似度比较结果。
[0057]
一种应用于基于卷积神经网络弱监督类别无关的图像相似性检索系统的控制方法:
[0058]
所述方法具体包括以下步骤:
[0059]
步骤一:当系统处于离线阶段,输入端传输数据库图像,对数据库图像进行预处理roi提取模块,将图像的兴趣区域(region of interest,roi)与背景信息分离提取,并通过k-means和canopy结合的方式对离线数据库中的roi对象进行聚类存储;
[0060]
步骤二:当系统处于在线阶段,输入端传输查询图像,对查询图像进行预处理,使用roi提取模块将图像的兴趣区域roi与背景信息分离提取;
[0061]
步骤三:通过相似度比较模块,将在线阶段提取的数据与离线阶段聚类存储的数据库图像的roi进行相似性比较,找到最相似的图像。
[0062]
在步骤三中,
[0063]
在离线数据库roi对象进行聚类后,当查询图像输入时,首先与各个簇的簇心目标进行相似度比较;根据相似度得分进行簇内的进一步检索,最终得到相似度最高的图像。
[0064]
在网络训练过程中,将数据图像分为两个不相交的集合分别用来训练和测试,每个集合由同一类目标对组成。在这一过程中,本发明使用的是不带标签信息的图像数据。网络通过学习比较对象的内在相似逻辑来实现相似度比较。
[0065]
roi提取模块用于生成候选提议。该模块包含两个区域提议网络,分别用于处理查询图像和数据库图像;两个rpn共享相同的网络结构和学习权重。
[0066]
对于每幅图像,rpn的损失函数定义为:
[0067]
l(i)=l1(rs(a),s) λ1r(s)l2(r
p
(a),g)
ꢀꢀꢀ
(1)
[0068]
其中,l1(
·
)为分类损失,l2(
·
)用于候选框的回归,λ1用于平衡这两种损失,r(s)是标识函数来标记背景类别的回归损失,s是ground-truth类集合,a表示archor,g是ground-truth位置,rs(a)是类别分数,r
p
(a)是定位框的位置;由于数据不带有任何标签信息,s由两个类组成,即背景或roi。
[0069]
进行相似度比较。如图1所示,相似度比较模块采用候选提议来比较候选提议对的
相似性并优化其边界框。本发明对候选提议边界框的回归做了改进,细化roi目标区域,降低相似度比较过程中的运算量。相似度比较模块对输入数据的损失函数定义为:
[0070][0071]
l3(o)=l1(rs(a),s) λ2r(s)l2(r
p
(a),g)
ꢀꢀꢀ
(3)
[0072]
其中,表示两张输入图像的位置细化损失,l4表示提议对的匹配损失,λ是结合这两种损失的超参数。
[0073]
处于离线阶段,对于数据库图像id进行预处理;利用roi提取模块将id中的目标中的目标提取出来并聚类存储;
[0074]
处于在线阶段,对于查询图像iq进行预处理;利用roi提取模块从iq提取目标提取目标
[0075]
处于在线阶段,得到查询图像iq的roi集之后,将其与数据库图像id的聚类过的roi集的簇心子集进行相似度比较;在此过程中,通过计算oq和的笛卡尔积来构建roi对的集合
[0076][0077]
当确定了相似度最高的簇心之后,再进行簇内的相似度比较,这一过程与上述簇间相似度比较过程相同;执行完以上操作后,网络输出与查询图像中的roi目标最相似的数据库目标,进而确定最相似的原始图像。
[0078]
本发明使用的相似度检测网络,即关系网络。这种网络具有学习相似性度量的能力,且不需要支持集来进行训练。在本发明的实验场景中,每幅图像的候选提议都不确定,很难形成支持集。
[0079]
与很多方法中用到的孪生网络类似,关系网络也学习了深度嵌入。不同之处在于,孪生网络对于相似度的比较度量用的是固定值,如欧氏距离或余弦距离。而关系网络的目标是学习一个可转移的深度度量,这是一个可学习的非线性度量。从已有的实验结果可以得出结论,该方法在少样本学习方面优于孪生网络。因此,本发明利用这种网络来构建一个性能更好的比较器来计算roi之间的相似度。
[0080]
如图2所述相似度比较模块有三个卷积层和两个全连接层组成;每个卷积层具有512个滤波器,同时卷积核大小为3
×
3;
[0081]
进行批量归一化;选用非线性relu,采用2
×
2最大池化;
[0082]
第1个全连接层是128维的relu;第2个全连接层是1维函数用于生成0到1之间的关系得分;
[0083]
首先,roi提取模块生成候选提议对,并且每个候选提议对被输入到roi池化层中获取2个7
×7×
512的特征映射;然后将这两个特征图连接起来并输入到相似度比较模块,计算他们之间的相似度:
[0084]
相似度比较模块的损失函数定义为:
[0085][0086]
其中,r(
·
)是相似度分数,使用均方损失作为目标函数。
[0087]
仿真结果与性能分析
[0088]
数据集和评价指标:本发明在holidays、paris6k和oxford5k三个基准数据集上比较了本发明提出方法与其他图像检索方法的性能。所有数据集上的性能可以用mean平均精度(map)表示的百分比来衡量。
[0089]
本发明在一台内存为64gb的计算机上进行实验,其处理器为2颗intel xeon gold 5118,具有8gb显存的quadro p4000显卡。本发明使用在imagenet上预训练过的resnet50提取深层特征。
[0090]
对于本发明中的表格,其中结果来源要么是原始文献,要么是根据公开的代码评估而来。对于后者,除非另有说明,本发明采用与本发明方法相同的基线框架,并替换相应的操作,以便进行公平的比较。同时,本发明采用与原文献相同的框架和参数。
[0091]
首先,将本发明所提出的方法与没有后处理的方法进行比较,其结果如表1所示。无后处理模块的方法改进主要集中在优化表示和索引。在3个测试数据集上,本发明的方法均表现出较好的性能。具体来说,本发明提出方法在3个数据集上的map性能相较于其他方法的最优结果分别高出6.43%、6.47%、8.01%。图3为本发明方法与表1中结果最优的两种方法的直观对比图。
[0092][0093]
表1.与无后处理模块方法的map性能对比
[0094]
对比了各种后处理方案,包括重新排序和扩散方法。从表2可以看出,本发明提出的方法在3个测试数据集上的性能始终优于其他经过后处理的算法。具体来说,本发明提出方法在3个数据集上的map性能相较于其他方法的最优结果分别高出2.93%、0.68%、2.26%。图4为本发明方法与表2中结果最优的两种方法的直观对比图。
[0095]
[0096]
表2.与采用不同后处理模块的方法的map性能对比
[0097]
以上对本发明所提出的一种基于卷积神经网络弱监督类别无关的图像相似性检索系统及其控制方法,进行了详细介绍,对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
转载请注明原文地址:https://win.8miu.com/read-1056181.html