一种基于卷积神经网络和MAML算法的类圆目标检测方法与流程

专利检索2022-05-10 18

一种基于卷积神经网络和maml算法的类圆目标检测方法
技术领域
1.本发明涉及计算机视觉和模式识别技术领域，尤其是一种基于卷积神经网络和maml算法的类圆目标检测方法。

背景技术：

2.目标检测是计算机视觉领域的一个重要研究方向，其中类圆目标检测可以推动球类比赛裁决，人脸追踪等任务的快速发展。目前，随着神经网络在计算机视觉领域的广泛应用，基于卷积神经网络的目标检测方法也随之出现。不过，现有的大部分目标检测方法使用的均是可旋转的矩形框作为目标检测的标注方式，对于每个目标都会生成大量候选框，每个候选框将至少包括中心位置，宽高，旋转角度5个参数，这也就导致计算量非常大，因此耗费大量的计算资源。当然在现实场景中，大量的类圆目标需要进行检测，比如各种体育运动中的球，人脸等目标。因此，本文提出了类圆目标的目标检测算法，目的是减少此类目标检测过程中的计算量，并且提高类圆目标检测任务的精确度，促进类圆目标追踪和分割任务的快速发展。

技术实现要素：

3.本发明的目的是提供一种基于卷积神经网络和maml算法的类圆目标检测方法，通过改变类圆目标的标注方式，由矩形框的中心位置，宽高，旋转角度5个参数减少为圆形框的圆心位置，半径三个参数，大大降低了模型训练时的计算量；通过使用maml算法强大的多任务学习能力，增强了模型对不同尺度和不同分辨率图像中目标的检测能力。
4.为实现上述目的，本发明采用下述技术方案：
5.一种基于卷积神经网络和maml算法的类圆目标检测方法，包括以下步骤：
6.收集并标注类圆目标图像数据集；
7.划分收集的数据集以便进行不同的子任务；
8.将训练集中的图像进行数据增强；
9.分别使用大目标检测数据集bo、小目标检测数据集so、高分辨率检测数据集hr、低分辨率检测数据集lr训练大目标检测模型、小目标检测模型、高分辨率检测模型、低分辨率检测模型；
10.使用maml算法学习到最有潜力的类圆检测模型；
11.将不同的测试样本送入训练好的模型中进行推理得出检测结果。
12.进一步地，所述为收集并标注类圆目标图像数据集，包括：
13.通过不同途径收集具有类圆目标的各类图片若干张，其中包括各种体育比赛中的球，人脸，车轮等目标。然后，将收集好的图片统一转换为一种图片格式，比如jpeg、png等；最后，对转换后的图片数据中的类圆目标使用圆形框进行标注。
14.进一步地，划分收集的数据集以便进行不同的子任务，包括：
15.将标注好的数据集分别划分到大目标检测、小目标检测、高分辨率图像、低分辨率
图像四个数据集中，并统计不同数据集中的待检测目标种类个数c1、c2、c3、c4，以便分别进行四个不同的类圆目标检测子任务。
16.进一步地，将不同子任务中的图像进行数据增强，包括：
17.对原始图像数据进行翻转、饱和度、亮度、对比度调整、仿射变换、弹性变换、cutmix、mosaic这八种数据增强，以便提高类圆目标检测模型的检测精度。
18.进一步地，分别使用大目标检测数据集bo、小目标检测数据集so、高分辨率检测数据集hr、低分辨率检测数据集lr训练大目标检测模型、小目标检测模型、高分辨率检测模型、低分辨率检测模型，包括：
19.首先，先对经典的yolo v4目标检测模型进行调整，将模型结构的最后三个分支的最后一个卷积的输出通道数调整为3*(3 1 c)。其中括号中的3表示该目标检测任务中的标注位置信息圆形框的圆心位置(r
x
,r
y
)，半径r三个参数，1表示置信度参数，c表示数据集类别个数。分别使用数据集bo、so、hr、lr训练调整结构后的yolo
‑
v4目标检测网络模型，完成4个不同功能的子任务。
20.进一步地，使用maml算法学习到最有潜力的类圆检测模型，包括：
21.假设调整结构后的模型参数为θ(r
x
,r
y
,r,c)，主要包括圆形框的圆心坐标位置(r
x
,r
y
)、半径r以及置信度c。已知四个子任务t
i
(i＝1,2,3,4)以及其关联的数据集(d
i
(train),d
i
(test))，我们可以通过梯度下降来更新优化后的类圆目标检测模型参数。但这仅仅是对某一项子任务具有比较好的检测效果，为了对各项任务进行良好的概括，我们希望找到最佳的θ
*
，以便特定于任务的微调更加有效。因此，我们使用maml元学习算法学习出最具潜力的模型θ
*
，以便得到比上一步更优的目标检测模型。
22.进一步地，将不同的测试样本送入训练好的模型中进行推理得出检测结果，包括：
23.将所有的图像数据合并成一个数据集，重新划分训练集d
train
和验证集d
val
，使用上面学习到的最优参数θ
*
作为初始权重以及训练集d
train
重新训练类圆目标检测模型。将不同的测试图像作为输入，使用训练好的类圆目标检测模型进行检测，得到测试图像中目标的位置信息(r
x
,r
y
)、尺度信息r以及类别信息c。
24.发明内容中提供的效果仅仅是实施例的效果，而不是发明所有的全部效果，上述技术方案中的一个技术方案具有如下优点或有益效果：
25.本发明提供一种基于卷积神经网络和maml算法的类圆目标检测方法，该算法通过使用圆形框来标注类圆形目标不仅大大减少了计算量，而且使用圆形框标注类圆形目标可以更加精确地表示类圆目标的位置信息和轮廓信息，借助maml算法的优势，快速提取出有利于多个不同子任务的图像中类圆目标特征信息，学习到最有潜力的类圆目标检测模型，大大提高类圆目标检测的鲁棒性。
附图说明
26.图1是本发明基于卷积神经网络和maml算法的类圆目标检测方法流程图。
具体实施方式
27.如图1所示，一种基于卷积神经网络和maml算法的类圆目标检测方法，包括以下步骤：
28.s1、收集并标注类圆目标图像数据集；
29.s2、划分收集的数据集以便进行不同的子任务；
30.s3、将训练集中的图像进行数据增强；
31.s4、分别使用大目标检测数据集bo、小目标检测数据集so、高分辨率检测数据集hr、低分辨率检测数据集lr训练大目标检测模型、小目标检测模型、高分辨率检测模型、低分辨率检测模型；
32.s5、使用maml算法学习到最有潜力的类圆检测模型；
33.s6、将不同的测试样本送入训练好的模型中进行推理得出检测结果。
34.步骤s1中，通过不同途径收集具有类圆目标的各类图片若干张，其中包括各种体育比赛中的球，人脸，车轮等类圆形目标；然后，将收集好的图片统一转换为png格式；最后，对转换后的图片数据中的类圆目标使用圆形框进行标注，主要标注类圆形目标的中心位置信息(r
x
,r
y
)和尺度信息r，并将这些标签信息以json格式文件输出。
35.步骤s2中，根据图像中目标尺度和图像分辨率高低将标注好的数据集分别划分到大目标检测、小目标检测、高分辨率图像、低分辨率图像四个数据集中。其中，除高分辨率子数据集和低分辨率子数据集中不存在重复图像数据，其他子数据集之间允许存在重复图片。然后将划分好的大目标检测数据集bo、小目标检测数据集so、高分辨率检测数据集hr、低分辨率检测数据集lr分别按照7:3的比例划分出子训练集和子验证集，并统计不同数据集中的待检测目标种类个数c1、c2、c3、c4，以便进行四个不同的目标检测子任务。
36.步骤s3中，对原始数据进行左右翻转、饱和度调整、亮度调整、对比度调整、仿射变换、弹性变换、cutmix、mosaic这八种数据增强，其中图像饱和度、图像亮度、图像对比度是将原图的相应属性随机调整为原图的0.8至1.2倍；放射变换是将原图的长宽分别随机缩放为原图的0.9至1.1倍，然后随机旋转
‑
15度至15度；弹性变换是进行弹性系数为20，变形强度控制因子为100的弹性形变增强；cutmix是对一对图片做操作，随机生成一个裁剪框box，裁剪出b图相应位置的像素块填充到a图的相应位置形成新的图像样本。mosaic是将4张训练图像合并成一张形成新的数据样本。
37.步骤s4中，使用大目标检测数据集bo、小目标检测数据集so、高分辨率检测数据集hr、低分辨率检测数据集lr训练大目标检测模型、小目标检测模型、高分辨率检测模型、低分辨率检测模型，包括：
38.对不同子任务中的彩色图像，分别经过cspdarknet53、spp、panet以及yolo head四个模块来完成图像特征的提取以及图像类圆目标的检测。彩色图像先输入cspdarknet53的5个分块卷积组合：输入为3通道608
×
608像素彩色图像，经过cspdarknet53的第一个分块，其中包括11个卷积操作，得到64通道304
×
304像素的特征图；经过第二个分块，残差单元中的3
×
3卷积核的深度由128改为64，其中包括13个卷积操作，这里得到128通道152
×
152像素的特征图；经过第三个分块，残差单元中的3
×
3卷积核的深度由256改为128，得到256通道76
×
76像素的特征图；经过第四个分块，残差单元中的3
×
3卷积核的深度由512改为256，得到512通道38
×
38像素的特征图；经过第五个分块，残差单元中的3
×
3卷积核的深度由1024改为512，得到1024通道19
×
19像素的特征图；
39.将1024通道的19
×
19像素的高级特征图输入spp模块，以便增加网络的感受野。首先，对高级特征图依次经过1
×1×
512、3
×3×
1024、1
×1×
512卷积核的卷积操作，然后对
输出的512通道19
×
19像素的特征图分别进行5
×
5、9
×
9、13
×
13的最大池化，对经过池化的特征图进行concatenete操作，得到2048通道19
×
19像素的特征图。
40.将2048通道的19
×
19像素的高级特征图输入panet模块，主要是对特征图进行上采样操作，得到256通道76
×
76像素的特征图；最后输入yolo head模块，将panet模块中间得到的高级特征与最终得到的高级特征经过一系列卷积操作之后进行concatenete操作，然后将得到的1024通道19
×
19像素的特征图输入最后一个1
×1×
3*(3 1 c)的卷积层，得到输出类圆目标检测信息19
×
19
×
3*(3 1 c)，其中括号中的3表示该目标检测任务中的标注位置信息圆形框的圆心位置(r
x
,r
y
)，半径r三个参数，1表示置信度一个参数，c表示数据集类别个数。
41.使用梯度下降算法经过多次迭代，可以得到不同数据集训练后的不同子任务的类圆目标检测模型：大目标检测模型、小目标检测模型、高分辨率检测模型、低分辨率检测模型。
42.步骤s5中，使用maml算法学习到最有潜力的类圆检测模型，包括：
43.假设调整结构后的模型参数为θ(r
x
,r
y
,r,c)，主要包括圆形框的圆心坐标位置(r
x
,r
y
)、半径r以及置信度c。已知四个子任务t
i
(i＝1,2,3,4)以及其对应的数据集(d
i
(train),d
i
(test))我们可以通过梯度下降(具体计算方式见公式(1))来更新优化后的maml类圆目标检测模型参数：
[0044][0045]
其中，l表示优化任务t
i
(i＝1,2,3,4)模型时的损失函数，α是指学习率。公式(1)仅仅是对某一项任务进行优化，为了对各项任务进行良好的概括，我们希望找到最佳的θ
*
，以便特定于任务的微调更加有效：
[0046][0047][0048]
通过公式(3)更新参数θ，使其学习出最具潜力的模型θ
*
，以便于得到比上一步更优的目标检测模型。
[0049]
步骤s6中，将不同的测试样本送入训练好的模型中进行推理得出检测结果，包括：
[0050]
先将所有的图像数据合并成一个数据集，重新划分训练集d
train
和验证集d
val
，使用上面学习到的最优参数θ
*
作为初始权重以及训练集d
train
重新训练类圆目标检测模型。将不同的测试图像作为输入，使用训练好的类圆目标检测模型进行检测，得到测试图像中目标的位置信息(rx,ry)、尺度信息r以及类别信息c。
[0051]
上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

转载请注明原文地址:https://win.8miu.com/read-50282.html

专利

最新回复(0)