一种基于卷积神经网络的服装属性识别方法

专利检索2022-05-11  21



1.本发明涉及服装图像识别领域,涉及一种基于卷积神经网络的服装属性识别方法。


背景技术:

2.随着电子商务的流行和图像据的累计,如何从庞大的图像数据中快速挖掘出有用的信息成为一个迫切的需求并迅速成为一个研究热点。服装类目作为电商行业中的第一大类目,其需求更是迫切。针对服装图像分类任务,传统的方法是借助数字图像处理以及模式识别,通过对图像局部分割和特征提取等基于底层视觉特征或者手工设计的视觉特征来实现对服装图像的识别,这些基于底层特征的方法过于依赖特征提取,具有一定的局限性。
3.随着近期深度学习在图像分类识别任务上的突破,越来越多的深入学习的方法被用来解决服装图像分类和识别,这些方法虽能大大提高识别效率,但都是从图片整体上去识别其分类或属性,而很多服装的一些属性从局部就能辨别,因此通过图像局部识别的方法可以大大提高识别效率。


技术实现要素:

4.本发明的目的是为了从庞大的图像数据中快速挖掘出有用的信息,从服装图像的局部特征区域来识别衣服的一些特征,提高服装图像识别的效率和精确度。
5.本发明的技术方案如下:
6.一种基于目标检测算法框架的服装属性识别方法,步骤如下:
7.第一步,候选区的提取;
8.优选地,本发明采用选择性搜索算法(search selective,后文简称ss算法)提取候选区区域。步骤如下:
9.首先使用基于图的分割方法将图像分割成许多小区域,然后通过各个区域间的颜色、纹理、尺寸、吻合度之间地相似性进行区域合并,得到每个可能存在的目标的矩形框,如附图2所示。
10.相比于原始ss算法,本发明使用不同通道的颜色矩来表示图像颜色特征,通过调整基于图的分割算法中的尺度和阈值来控制预选框的提取效果。
11.另外,根据所选的服装款式类型,结合服装各个属性的分类,尽量用一个最小的区域去框选目标特征区域,得到各个特征区域的标注实例,以此作为训练和测试模型的主要数据集。
12.第二步,对数据集中的矩形区域和标注区域内的图像进行预处理;
13.优选地,所述图像预处理,步骤如下:
14.由于后续的模型需要输入图像的尺寸一致,因此需要对ss算法得到的矩形框和标注的数据进行尺寸的归一化处理。本发明采用双线性插值对图像进行放缩处理,放缩系数由矩形框中比较长的一边进行决定,段边上的空白用全0进行填充,放缩实例如附图7所示。
15.第三步,候选区的特征提取和分类;
16.优选地,在进行特征提取的时候,本发明选取卷积神经网络对选区进行特征提取,并且在网络架构中使用inception结构。其示意图如附图3所示,其中(a)中所示的结构主要作用是对空间特征进行聚合,(b)中所示结构除了聚合作用外,还可以降低特征图尺寸。
17.优选地,在进行预测图像分类时,本发明选取l-softmax分类器。
18.在卷积神经网络中,最大熵损失是最常用的监督分量。尽管该组件很简单且很受欢迎,但它并没有明确鼓励对特性的判别式学习。本研究应用广义大边界最大损失(l-softmax),明确地鼓励了类间的可分性和类内特征之间的紧密性。
19.在进行候选区的特征提取和分类的步骤如下:
20.将经ss算法得到的候选区域经过尺寸归一化处理后,在稀疏神经网络cnn中进行前向传播,将最后池化层后的2048维特征向量提取出来,接下来用训练好的分类器预测其属于每个类别的可能性及分数,对于每个类别,图片中的预选框都会有一个分数。
21.第四步,对预选框定位精度进行衡量;
22.图片经过ss算法后会产生很多可能存在检测物体的矩形框,需要对这些预选框进行筛选并且评价边界框的定位精度。
23.优选地,本发明采用非极大值抑制来对提取的区域进行筛选评价。
24.利用非极大值抑制筛选选区的步骤如下:
25.首先假设有6个预选框,根据经过分类器后的分类概率排序,从小到大分别属于某一类的概率排序为a、b、c、d、e、f;
26.1)从最大概率的选区f开始,分别判断a~e与f的重叠度iou是否大于某一个预先设定的阈值;
27.2)假设b、d和f的iou大于设定的阈值,那么排除b和d,标记概率最大的矩形框f并保留下来;
28.3)从余下来的选区a、c、e中,选择概率最大的区域e,然后计算e与a、c的iou,如果重叠度大于设定的阈值就排除,并且标记e是保留下来的第二个区域;
29.4)重复上述过程,直到筛选出所有保留下来的候选区。
30.第五步,校正识别区域;
31.算法标注的边界框不可能和标注的数据百分百的吻合,为了找到一个更接近真实边框的回归边框,优选地,本发明采用边界回归的方法,其步骤如下:
32.提取通过稀疏神经网络的池化层特征值,进行平移变换和尺度防缩。最终模型的输出是对目标边框的预测值。
33.本发明的有益效果:
34.本发明通过对服装图像的局部特征识别其属性,提高了识别效率和精确度。
附图说明
35.图1是本发明方法技术路线示意图;
36.图2是ss算法候选框示意图;
37.图3是深度神经网络示意图;
38.图4是区域重叠度iou示意图;
39.图5是标注数据框示意图;
40.图6是在本发明实验条件下的候选框数量示意图;
41.图7是双线性插值图像缩放方法示意图。
具体实施方式
42.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
43.步骤一,标注数据;
44.对于服装不同的属性尽量用一个较小的区域框选目标特征区域并对其进行标注,如附图5所示,并以此作为标注数据,所有分类的标注数据都应达到1000以上。
45.步骤二,候选区的选择;
46.使用ss算法提取候选区域,此算法的步骤如下:
47.1)使用基于图的图像分割算法分割得到原始分割区域集合,用r={r1,r2,...rn}表示;
48.2)计算相邻区域之间的相似度包括颜色相似度、纹理相似度、尺寸相似度以及吻合度,并存储在集合s中;
49.3)合并集合r中相似度最高的两个相邻区域r
p
和rq形成新的区域r
t
,并在集合s中删除r
p
和rq相邻区域之间的相似度;
50.4)计算r
t
和相邻区域之间的相似度,并将相似度的值存入集合s中,将r
t
储存在集合r中;
51.5)迭代重复步骤3、4,直到集合s为空;
52.6)按照尺寸大小筛选出可能的候选框。
53.其中,步骤2)中在计算相似度时考虑了四个相似度,分别为颜色、纹理、尺寸和吻合度。在此用区域内颜色在不同颜色空间中的颜色矩来表征颜色特征。为了将场景和光照条件考虑在内,使用的颜色分量包括:(1)rgb空间的r、g、b;(2)加权灰度值i;(3)lab颜色空间l、a、b;(4)hsv颜色空间h、s和v。颜色矩包含三个分量,分别为一阶矩(均值),二阶中心距(方差)和三阶中心距(斜度)。
54.计算公式如下
[0055][0056][0057][0058]
其中,一阶矩均值用μ表示,二阶中心矩方差用σ表示,三阶中心距用s表示,n表示区域中所包含像素点的个数,h表示所在通道的值。每个区域都可以得到一个n=10
×
3=30
v4@2.60ghz,内存32g,显卡为nvidia titan xp两块。训练的模型基于深度学习框架tensorflow,为了使深度网络模型有一个较好的初始值,将此模型放到imagenet数据集上进行预训练。然后在自己训练集上迁移训练这个深度模型,只需要将最后的输出1000类标注数据换成19类。
[0077]
本发明将尺寸归一化的经ss算法提取候选框在稀疏神经网络cnn中进行传播,将最后池化层的2048维特征向量提取出来,然后用训练好的l-softmax预测其属于每个分类可能性及分数,对于每个类别,图片中的预选区域都会对其有一个分数。
[0078]
步骤五,对预选区域定位精度进行衡量
[0079]
对经过步骤四的预选框进行非极大值抑制,对预选框进行一个筛选,保留下来有用的预选框,然后用区域重叠度iou保留与标注框大于0.6的区域。
[0080]
步骤六,边界回归校正识别区域
[0081]
边界回归包含两个变换,平移变换和尺度放缩。其中平移参数用d
x
(p)和dy(p)表示,放缩参数用dw(p)和dh(p)表示边界回归的目标函数用下式表示,
[0082][0083]
其中,d
*
(p)是得到的预测值,*表示x,y,w,h,ω
*
表示要学习的参数,f
p
表示对应矩形框的特征值。边界回归的目的是尽量缩小预测值和真实值(t
x
,ty,tw,th)的差距,使用的损失函数为和目标函数为:
[0084][0085][0086]
其中n表示训练集中样本的数量,argmin表示使loss最小的ω
*
。训练使用随机梯度下降算法对模型进行学习。
[0087]
步骤七,分类结果和参数优化
[0088]
本发明中,通过计算ss算法提取的预选框与真实标注框的区域重叠度来评估算法性能。完全包含物体的区域就是所谓的正样本,与物体区域没有任何交集的区域就是负样本,使用区域重叠阈值来挑选预选框与正负样本的重叠阈值,本发明采用的两个重叠阈值为t1=0.3,t2=0.6,使用map来评估模型在测试集上的识别准确度。本发明验证的数据中大部分类别的识别准确率超过80%。
转载请注明原文地址:https://win.8miu.com/read-1049994.html

最新回复(0)