一种基于历遍源目标的遥感影像目标检测样本生成方法与流程

专利检索2022-05-10  30



1.本发明属于遥感影像深度学习目标检测领域,具体涉及一种基于历遍源目标的遥感影像目标检测样本生成方法。


背景技术:

2.随着深度学习目标检测技术的快速发展,已经在自然图像的目标检测中成功应用,人脸识别、车辆识别、行人检测等技术日臻完善。遥感影像技术的快速发展,为地球观测提供了重要数据源,遥感影像目标检测是国防安全、精准农业、测绘测量、城市规划等领域的关键技术,深度学习目标检测算法从自然图像至遥感图像正逐步过渡,在水体、林地、道路、飞机、建筑物、复杂场景等检测中较传统算法已取得很大的成就。
3.深度学习目标检测是以数据为核心驱动的算法,对训练样本有极强的敏感性,样本类型与数量过少均会导致训练模型的过拟合,由于获取遥感图像较自然图像难度大且价格昂贵,所以针对遥感领域的训练样本集较少,常用的遥感样本集有nwpu vhr

10、nwpu

resisc45、rsod

dataset、uc mercedland

use data set、whu

rs19 data set、dota系列等。由于遥感影像受分辨率、波段数、幅宽范围、波谱范围等因素导致差异变化,以上开源遥感样本集并不能涵盖所有遥感目标检测领域的业务应用需求,针对特定业务的目标检测则需要建立对应的遥感影像训练集。
4.目标检测训练样本制作过程通常以人工手动标注为主,不仅人力资源消耗巨大,而且耗时低效,不仅不能及时满足遥感目标检测的业务应用,而且还加大了遥感影像目标检测业务运行的投入成本。虽然结合目标矢量数据通过滑动窗口历遍遥感影像,可以自动生成一定量的训练样本,但这种方法针对较小范围的遥感影像和在影像上较少的存在较少的目标时,会导致训练样本集数量生成过少,而且会造成包含大量背景信息的假样本,有效样本占比较低,因此需要更高有效可行的遥感目标检测训练样本生成算法。


技术实现要素:

5.为了克服以上技术问题,本发明的目的在于提供一种基于历遍源目标的遥感影像目标检测样本生成方法。
6.为了实现上述目的,本发明采用的技术方案如下:
7.一种基于历遍源目标的遥感影像目标检测样本生成方法,包括如下步骤,
8.s1、在一定范围内利用网络爬虫技术或者人工手动标记待检测对象的点位信息,形成点位文件;
9.s2、对处于每个点位信息的待检测对象进行矩形框目标标注,并形成面状图层要素;
10.s3、逐一历遍步骤s2得到的面状图层中的待检测对象要素,并将每一待检测对象要素与选择的遥感影像进行对应,生成一定尺寸的训练图片数据与标注信息文件,构造原始样本集oritrainset;
11.s4、将步骤s3得到的原始样本集oritrainset进行样本图片数据完整性检测,剔除图像信息中背景值比例大于λ的样本对数据,得到更新样本集uptrainset;
12.s5、将步骤s4得到的更新样本集uptrainset分别以σ和τ的比例进行测试样本集、验证样本集和训练样本集划分,并以通用标准的深度学习训练样本集格式输出,生成usetrainset训练集数据;
13.s6、对步骤s5得到的usetrainset分别以随机数的形式进行随机正确性查看,用以判定生成的usetrainset训练集数据是否正确,并确定最终样本集成果。
14.优选的,步骤s2中对每个点位的待检测对象进行矩形框目标标注,并形成面状图层,具体包括:s21,以每个点位为中心,形成长为s
w
和宽为s
h
的矩形目标标注框,其中,矩形目标标注框标注范围的确定方法为:
[0015][0016]
式中,s和h分别为待检测对象实地范围的宽和高,单位为米;s
w
和s
h
分别为像素坐标系下标注框的宽和高,单位为像素个数;η为遥感影像的分辨率;
[0017]
s22,将形成的矩形目标标注框以面状要素方式进行存储。
[0018]
优选的,步骤s3中的所述对应的遥感影像是以rgb真彩色波段组合模式,步骤s1中的点位文件以esri shapefile格式保存。
[0019]
优选的,步骤s3中的生成训练样本的过程具体包括以下步骤:
[0020]
s31,获取面状图层中的待检测对象要素,将所述待检测对象要素与选择的遥感影像进行逐一遍历,并按照样本标注规则进行对应标注;
[0021]
s32,将在遥感影像中标注出来的待检测对象要素按照规则生成的矩形目标标注框进行裁剪,最终将裁剪完成后的目标标注框整理为训练样本。
[0022]
优选的,步骤s31中所述样本标注规则具体包括:在生成训练样本集时需要遵循以下三个规则:
[0023]
(1)标注框的中心不能持续存在待检测对象要素:当标注框的样本中心持续存在待检测对象要素时,以一定的距离s沿某方向进行标注框移动,以保证待检测对象要素不会一直位于标注框的样本中心;其中,θ为移动方向角,本发明使用8个随机方向,分别为0、π/4、π/2、3π/4、π、5π/4、 3π/2、7π/4;offset为移动基准长度;
[0024]
(2)标注框超过实际遥感影像数据范围的部分以0值填充:当待检测样本要素位于遥感影像边缘时,标注框会与遥感影像之外的范围有交集,此时标注框超过实际遥感影像数据范围之外的部分以0值填充;
[0025]
(3)当标注框与待检测样本要素相交时,即待检测样本要素被标注框切割,则依据gis空间分析判断依据判断被切割对象主体是否完整,若判断为完整,则保留该待检测样本要素;否则舍弃该待检测样本要素。
[0026]
优选的,所述判断依据为若待检测样本要素与标注框相交面积占待检测样本要素面积比小于μ则表示不完整,否则判断为完整。
[0027]
优选的,所述μ的取值为20%~30%。
[0028]
优选的,步骤s4中,所描述检测样本集oritrainset的样本图片数据完整性检测的
完整性是指统计训练样本图片中标注框中待检测目标为0值像素的个数,并统计其占比例α,依据如下判断依据进行样本筛选:
[0029][0030]
式中,δ=1表示该样本保留,否则被剔除,λ通常为0.9。
[0031]
优选的,步骤s5中,测试样本集占比0.1和验证样本集占为0.2,即σ=0.1,τ=0.2,则测试样本集个数为0.1*ω,验证样本集个数为0.9*ω*0.2,ω为更新后样本集uptrainset的大小;其转换的通用标准的深度学习训练样本集格式为pascal voc或者ms coco,可以快速应用于通常目标检测框架。
[0032]
优选的,步骤s6中所述的正确性查看是在训练集中随机选定若干图片的id,并显示其图片信息和在其上面的标注信息,通过人工确认是否正确,完成正确性检验。
[0033]
本发明的有益效果是:
[0034]
本发明公开了一种基于历遍源目标的遥感影像目标检测样本生成方法,该方法针对大范围遥感影像的典型目标,依据其矢量数据,可以实现自动化标注,并且依据样本大小与目标标记范围进行空间分析,完成训练样本中目标标记的完整性判别,从而减少了在遥感影像目标检测训练样本标记方面的人力成本,同时极大地提高了样本标注效率,可在短时间内生成大规模遥感影像目标检测训练样本;采用逐目标历遍的模式生成样本,在遥感影像有效的幅宽范围内,有效地保证样本数据量;通过逐目标遍历算法,可充分利用空间分析算法,可以保证每个训练样本中的具有完整可靠性目标标注信息,更加灵活可靠;本发明具有样本自动筛查功能,可以自动地剔除训练样本中不合格的训练样本,更加有效地保证训练模型的精度与正确性;本发明为通用遥感影像目标检测训练样本制作提供了可靠的参考模式。
附图说明
[0035]
图1是本发明使用的历遍源目标的遥感影像目标检测样本生算法流程示意图;
[0036]
图2是本发明实施例中以风力发电机为例进行的样本标注情况,其中a为风力发电机的点位标注情况(白色三角位置)、b为1米遥感影像分辨率情况下矩形方框标注情况(白色方框)、c为2米遥感影像分辨率情况下的矩形方框标注情况 (白色方框)。
[0037]
图3是本发明实施例中依据生成标注框时的随机移动算法(图3b),沿着π/4 移动了offset大小的距离,使得中心存在风力发电机目标的样本(图3a),成为中心不存在风力发电机目标的样本(图3c)。
[0038]
图4a是本发明实施例中标注框超过实际遥感影像数据范围的以0值填充的算法原理图,黑色方块代表风力发电机标注信息,虚线方框为采集样本大小,当以黑色方块为基础生成训练样本时,会也原始遥感影像s出现9种相交的情况,阴影部分为在样本中保留使用原始影像数据集,而外部则填充0。图4b为原理图中的三种情况的实例(虚线框内),灰色部分为原始影像区域,生成800*800px 大小的样本中位于影像内的用原始遥感数据,超出影像范围内的使用0值填充。
[0039]
图5是本发明实施例中对标注框内所有目标标注进行gis空间分析,a图虚线方框里的为该样本涉及到的风力发电机标注框其中,如果某个元素只有小于自身面积的20%在
标注框内,则自动剔除该样本,可见b图中实线圆框里的目标对象被保留,而虚线圆框里的样本被删除,保证了单一样本内目标标注的完整性。
[0040]
图6是本发明实施例中随机选择的6个样本的正确性检验结果。
具体实施方式
[0041]
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不用于限定本发明。
[0042]
实施例1
[0043]
为了更好地说明本发明技术方案及优点,本实施例中利用空间分辨率为1米的gf2和2米的zy3卫星遥感影像进行风力发电机目标检测的训练样本生成。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不用于限定本发明。
[0044]
以风力发电机遥感目标识别业务场景为例,首先,利用网络爬虫技术或者人工标点获取一定范围内风力发电机的坐标信息(以点状图层为主),然后再依据不同遥感影像分辨率生成对应大小的标注框作为目标标注信息,结合与其对应的遥感影像,通过逐一历遍目标,以训练样本尺寸范围生成遥感影像目标训练样本对,同时利用gis空间分析对样本内目标进行评价筛选,最终自动完成风力发电机的训练样本集生成。本发明生成的样本集大小与标记元素数量正相关,而不依赖于遥感影像的尺寸大小,从而解决通过历遍整体影像导致生成样本较少的问题,而且,以逐一目标点为基础,可更方便地结合gis空间分析与增强算法,对单个样本内的目标有更好的完整性保障。
[0045]
本实施例提供一种基于历遍源目标的遥感影像目标检测样本生成方法,包括如下步骤,
[0046]
s1、在一定范围内利用网络爬虫技术或者人工手动标记风力发电机的点位信息;
[0047]
s2、对每个点位的风力发电机进行矩形框目标标注,并形成面状图层;
[0048]
s21,以每个点位为中心,形成长为s
w
和宽为s
h
的矩形目标标注框,其中,矩形标注范围的确定方法为:
[0049][0050]
式中,s和h分别为待检测对象实地范围的宽和高,单位为米;s
w
和s
h
分别为像素坐标系下标注框的宽和高,单位为像素个数;η为遥感影像的分辨率;
[0051]
s22,将形成的矩形目标标注框以面状要素方式进行存储。
[0052]
s3、逐一历遍s2得到的结果里的要素,并将每一风力发电机要素与选择的遥感影像进行对应,生成一定尺寸的训练图片数据与标注信息文件,构造原始样本集oritrainset;
[0053]
s31,获取面状图层中的待检测对象要素,将所述待检测对象要素与选择的遥感影像进行逐一遍历,并按照样本标注规则进行对应标注;
[0054]
s32,将在遥感影像中标注出来的待检测对象要素按照规则生成的矩形目标标注框进行裁剪,最终将裁剪完成后的目标标注框整理为训练样本。
[0055]
s4、将s3得到的oritrainset进行样本图片数据完整性检测,剔除图像信息中背景
值比例大于λ的样本对数据,得到更新样本集uptrainset;
[0056]
s5、将s4得到的uptrainset分别以σ和τ的比例进行测试样本集、验证样本集和训练样本集划分,并以通用标准的深度学习训练样本集格式输出,生成 usetrainset训练集数据;
[0057]
s6、对s5得到的usetrainset分别以随机数的形式进行随机正确性查看,用以判定生成数据集是否正确,并确定最终样本集成果。
[0058]
本实施例中的所述遥感影像是以rgb真彩色波段组合模式;所述步骤s1中爬取或者人工标记风力发电机的点位通常在风车影子与地面的交会处,点位文件通常以esri shapefile(.shp)格式保存。
[0059]
所述步骤s2中,由点要素自动转为面状要素数据,文件格式以esri shapefile (.shp)格式保存,每个点位的风力发电机标注矩形范围的确定与遥感影像的分辨率η有关,本实施例中风力发电机的矩形目标标注框标注范围具体表达如下,
[0060][0061]
式中,120和110分别为风力发电机实地范围宽和高,单位为米,s
w
和s
h
分别为像素坐标系下标注框的宽和高,单位为像素个数。
[0062]
需要注意到,在所述步骤s32中,在生成训练样本集时需要遵循以下三个规则:
[0063]
(1)标注框的中心不能持续存在待检测对象要素:当标注框的样本中心持续存在待检测对象要素时,以一定的距离s沿某方向进行标注框移动,以保证待检测对象要素不会一直位于标注框的样本中心;其中,θ为移动方向角,本发明使用8个随机方向,分别为0、π/4、π/2、3π/4、π、5π/4、 3π/2、7π/4;offset为移动基准长度;
[0064]
(2)标注框超过实际遥感影像数据范围的部分以0值填充:当待检测样本要素位于遥感影像边缘时,标注框会与遥感影像之外的范围有交集,此时标注框超过实际遥感影像数据范围之外的部分以0值填充;
[0065]
(3)当标注框与待检测样本要素相交时,即待检测样本要素被标注框切割,则依据gis空间分析判断依据判断被切割对象主体是否完整,若判断为完整,则保留该待检测样本要素;否则舍弃该待检测样本要素。
[0066]
所述判断依据为若待检测样本要素与标注框相交面积占待检测样本要素面积比小于μ则表示不完整,所述μ的取值为20%~30%,否则判断为完整。
[0067]
本实施例中,步骤s4中,所描述检测样本集oritrainset的样本图片数据完整性检测的完整性是指统计训练样本图片中标注框中待检测目标为0值像素的个数,并统计其占比例α,依据如下判断依据进行样本筛选:
[0068][0069]
式中,δ=1表示该样本保留,否则被剔除,λ通常为0.9。
[0070]
本实施例中步骤s5中,测试样本集占比0.1和验证样本集占为0.2,即σ=0.1,τ=0.2,则测试样本集个数为0.1*ω,验证样本集个数为0.9*ω*0.2,ω为更新后样本集
uptrainset的大小;其转换的通用标准的深度学习训练样本集格式为pascal voc或者ms coco,可以快速应用于通常目标检测框架。
[0071]
本实施例中的步骤s6中所述的正确性查看是在训练集中随机选定若干图片的id,并显示其图片信息和在其上面的标注信息,通过人工确认是否正确,完成正确性检验。
[0072]
实施例2
[0073]
本实施例中提供了一种具体的基于源目标的遥感影像目标检测样本生成方法,如图1所示,所述训练样本生成方法包括如下步骤,
[0074]
s1、分别选择采样为1米分辨率的gf2遥感影像,幅宽为38306*29956;采样2米分辨率的zy3遥感影像,幅宽为17965*13961,在此范围内通过手动快速标记风力发电机点位数据,共1321个;
[0075]
s2、对每个点位的风力发电机进行矩形框目标标注,取其中部分细节,可知在gf2遥感影像上生成的目标矩形标注宽高分别为120*110像素,在zy3遥感影像上生成的目标矩形标注宽高分别为60*55像素,如图2所示;
[0076]
s3、以2米分辨率zy3为影像底图,逐一历遍上述1321个点位数据,每通过一点,定制训练样本大小为800*800px,并采用随机移动标注框,设置 offset=300px,图3c表明标注框向π/4方向整体移动300px,换算至x和y方向则分别为s
x
=212,s
y
=212;在实际操作的过程中,为了增加随机性的话,就可以对遥感图像进行多次遍历,每遍历一次,那么可以采用8个随机方向中任一随机方向移动,分别为0、π/4、π/2、3π/4、π、5π/4、3π/2、7π/4。对于移动基准长度offset也可以按照实际需要进行调整。
[0077]
由于使用基于源目标的形式历遍,当目标位于影像边缘时,如图4a所示,则超过实际遥感影像范围的以0值填充,图4b显示部分区域内超过影像下边界的三个样本的生成情况,在影像范围外的数据为0值,加上影像数据构成800*800px 大小;同时统计标注框与目标标注框的相交部分,图5a虚线框内与标注框相交部分有两个目标标注框,统计面积分别为495px2和2970px2,由于目标矩形标记框面积为60*55=3300px2,经判断495/3300=15%<20%,则舍弃该目标标注(虚线圆框),保留另一个目标标注框(实线圆框),其结果如图5b所示。
[0078]
经过s3得到原始样本集oritrainset,样本集大小为1321个。
[0079]
s4、对s3得到的oritrainset进行样本图片数据完整性检测,依次统计 oritrainset中1321个样本图片的0值像素占比α,经实验分析得到,样本编号为 1294和1304的α为0.925和0.914大于λ=0.9,得到的uptrainset,样本集大小变为1319个;
[0080]
s5、将s4得到的uptrainset分别利用σ=0.1,τ=0.2进行切割,最终得到测试样本集个数为132个,验证样本集个数为237个,训练样本集个数为950个,训练与验证集个数比为4:1,通过coco数据集转换工具或者pascal voc数据集转换工具,将上述所有数据集形成最终的使用训练集usetrainset;
[0081]
s6、对usetrainset里的950训练样本中,随机选择6个进行正确性查看,如图 6所示,得知均为正常样本,可以进行深度学习目标检测实验;
[0082]
s7、表1是分别使用针对遥感影像的逐框历遍生成训练样本和本发明使用方法,并统计生成样本的总个数,可知本发明不仅生成的样本个数多,而且全部可用,而基于传统影像逐框历遍的生成有效样本占比只有72%,有效样本个数相对本发明不足1/4,在少量的遥
感数据范围下,训练深度学习目标检测模型极有可能造成过拟合现象。
[0083]
表1 单位:个
[0084]
序号方法名称训练集验证集测试集总个数有效个数有效占比1本发明方法95023713213191319100%2基于影像逐框历遍298754141429872%
[0085]
通过采用本发明公开的上述技术方案,得到了如下有益的效果:
[0086]
本发明提供了一种基于历遍源目标的遥感影像目标检测样本生成方法,本方法通过快速标记目标点位信息和遥感影像,以源目标为依据,逐目标历遍式地完成目标样本的制作,在生成每个样本的同时,可以自动随机移动标注框,防止样本中心存在目标标注,同时加入空间分析功能,自动剔除不满足识别要求的目标标注信息,在完成之后,再次自动筛选出不满足训练要求的样本数据,完成自我更新迭代,最终形成的训练样本集不依赖遥感影像大小,较传统以遥感影像为基准的逐框式历遍样本生成法,不仅在数量上有较大的提升,而且有效样本占比有绝对的优势,可作为遥感目标检测样本生成的重要参考。
[0087]
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。
转载请注明原文地址:https://win.8miu.com/read-25417.html

最新回复(0)