一种基于解耦注意力机制的多光谱红外巡检金具检测方法与流程

专利检索2022-05-11  15



1.本发明涉及图像领域,尤其涉及一种基于解耦注意力机制的多光谱红外巡检金具检测方法。


背景技术:

2.红外巡检是维护智能电网正常运行的关键。红外巡检利用光电技术检测物体热辐射信号,并将信号转化为人类视觉能够分辨的图像,红外巡检在电力设备定位与故障检测中具有十分广泛的应用,对红外巡检图像中的金具目标进行高精度的自动检测是其状态检测和故障判断研究的基础。
3.在红外巡检图像中由于金具与金具之间或金具与背景之间相互遮挡,以及金具与背景之间特征模糊化等现象,导致模型检测过程中出现了大量检测得分很高但检测框位置误差较大;模型不能准确预测目标边界框的情况,还容易出现误检和漏检的问题。


技术实现要素:

4.为解决上述问题,本发明以yolov3为基础,构建多光谱检测网络;引入了可见光图像辅助红外图像来检测金具;提出多光谱融合和多光谱数据增广可以提高模型检测的准确性,以及减少金具的误检和漏检。对于融合后出现过多冗余特征的问题,使用解耦注意力模块分别得到分类和回归敏感的特征,可以提高模型的鲁棒性和金具定位的准确性;从而为红外输电线路巡检典型金具运行状态的智能检测提供新的思路。
5.本发明实施例提供了如下技术方案:
6.选取两种模态的图像作为输入,两种模态的图像为一一对应的可见光图像与红外光图像,对两种模态的图像使用多光谱数据增强(multispectral data augmentation,mda)方法进行预处理;
7.将预处理后的图像分别送入特征提取网络darknet53中,提取出两个模态的多尺度特征图;
8.将相同尺度的特征进行融合,再将不同层的特征进行多尺度融合,得到融合的特征;
9.将融合的特征送入解耦注意力模块(decoupling attention module,dam)进行注意力加强分别生成对分类和回归敏感的特征,获得多尺度适用于分类和回归的融合特征图;
10.将多尺度适用于分类和回归的融合特征图依次级联并送入yolo层完成目标检测任务。
11.其中,所述对两种模态的图像使用多光谱数据增强方法进行预处理,具体包括:采用异步随机擦除噪声增强方法对两种模态图像进行预处理。
12.其中,所述采用异步随机擦除噪声增强方法对两种模态图像进行预处理,具体包括:
13.通过随机选择图像中的矩形区域,并填充一个随机的或互补的零值,擦除可见光图像和红外图像中相同位置的矩形,异步应用于两种模态图像;
14.针对可见光图像,加入合适的噪声增强;
15.针对红外光图像,加入合适的椒盐噪声。
16.其中,所述将相同尺度的特征进行融合,再将不同层的特征进行多尺度融合,得到融合的特征,具体包括:
17.使用双路darknet53作为特征提取网络,首先对两路darknet53的最后3个block的特征进行3x3的卷积,在通过sigmoid激活函数与堆叠后的同层特征进行逐元素相乘,再将得到的两路特征进行堆叠,最后通过1x1卷积调整通道数经过sigmoid激活函数完成对同层特征的融合;然后使用特征金字塔网络进行多尺度融合得到融合特征。
18.其中,所述将融合的特征送入解耦注意力模块进行注意力加强分别生成对分类和回归敏感的特征,获得多尺度适用于分类和回归的融合特征图,具体包括:
19.融合的特征首先通过平均池化和最大池化,然后分别进行挤压和激励操作与融合特征相乘,然后再使用3x3卷积进行编码,经过sigmoid激活函数与原来的特征相乘得到混合注意力机制提取的特征;
20.对提取的特征经过激励函数得到对分类敏感的特征;
21.对提取的特征经过抑制函数达到对回归敏感的特征。
22.与现有技术相比,上述技术方案具有以下优点:
23.1、本技术在双输入流目标检测网络的基础上,针对可见光图像和红外巡检图像的不同特性,各选择一套独特的数据增强技术,提出的异步随机擦除噪声增强方法,使模型有更好的泛化能力。
24.2、使用多光谱融合技术,采用改进的融合策略,重新设计的fusion模块可以更好的学习中间层生成特征的组合,明显地增强了目标的辨识度和对金具定位的准确性。
25.3、使用改进的通道与空间混合注意力机制,通过抑制函数和激活函数,分别提取适用于分类和回归敏感的特征,经过解耦注意力模块生成的热图准确地响应了任务敏感的有效特征区域。
附图说明
26.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
27.图1为本发明一个实施例所提供的基于解耦注意力机制的多光谱红外巡检金具检测方法的流程示意图;
28.图2为本发明另一个实施例所提供的异步随机擦除噪声增强的流程示意图;
29.图3为本发明另一个实施例所提供的多光谱融合整体结构的示意图;
30.图4为本发明另一个实施例所提供的两种融合模块比较的示意图;
31.图5为本发明另一个实施例所提供的解耦注意力模块的流程示意图;
32.图6为本发明另一个实施例所提供的分类和回归特征可视化结果示意图。
具体实施方式
33.发明人发现,多光谱检测技术在行人检测方面、汽车应用方面以及监控领域是一个热门的研究课题。但是,目前并没有将多光谱检测技术应用在电力红外巡检领域。所以,发明人创造性地提出了将多光谱检测技术应用在电力红外巡检领域。但是,发明人发现,在将多光谱检测技术应用在电力红外巡检领域过程中会存在如下问题:
34.1.由于彩色可见光图像和热红外图像显示出明显不同的特性,适合彩色可见光图像的增强可能对热红外图像没有类似的影响,可见光图像和红外图像的增强不应该相同。
35.2.常见融合策略中的融合模块,直接对同层特征进行接拼,不能很好的学习同层特征之间的组合关系,因此,需要设计一个融合模块来更好的学习同层特征之间组合的关系。
36.3.融合模块会引入较多的冗余特征,冗余特征会影响关键特征的提取。
37.为了解决申请人发现的上述技术问题,本技术的核心思想如下:
38.针对可见光图像与红外图像的不同特性,本技术采用的异步随机擦除噪声增强。即为可见光图像和红外图像各选择一套独特的增强技术,这样可以提高多光谱红外检测方法的泛化能力,同时,这种方法普遍适用于所有双输入流多光谱模型,本技术去除了光度畸变,因为它不能以合理的方式应用于单色热红外图像,对于几何畸变,只需要将变化同步应用到两种模态即可。
39.为了更好的融合两个模态的多尺度特征图,本技术重新设计融合模块,更好的学习同层特征之间的组合关系。
40.针对引入冗余特征问题,本技术将融合的特征送入解耦注意力模块(decoupling attention module,dam)进行注意力加强分别生成对分类和回归敏感的特征。
41.下面详细介绍基于解耦注意力机制的多光谱红外巡检金具检测方法,如图1所示,所述方法具体包括:
42.选取两种模态的图像作为输入,两种模态的图像为一一对应的可见光图像与红外光图像,对两种模态的图像使用多光谱数据增强(multispectral data augmentation,mda)方法进行预处理;
43.将预处理后的图像分别送入特征提取网络darknet53中,提取出两个模态的多尺度特征图;
44.将相同尺度的特征进行融合,再将不同层的特征进行多尺度融合,得到融合的特征;
45.将融合的特征送入解耦注意力模块(decoupling attention module,dam)进行注意力加强分别生成对分类和回归敏感的特征,获得多尺度适用于分类和回归的融合特征图;
46.将多尺度适用于分类和回归的融合特征图依次级联并送入yolo层完成目标检测任务。
47.其中,选取两种模态的图像作为输入,两种模态的图像为一一对应的可见光图像与红外光图像,对两种模态的图像使用多光谱数据增强(multispectral data augmentation,mda)方法进行预处理,具体包括:
48.使用适宜的数据增强方法能够帮助模型取得更好的训练效果,更加丰富多样的训
练样本可以在一定程度上降低复杂背景、角度、形态以及遮挡现象对金具检测的影响。训练样本的多样性可以有效防止模型训练过拟合,据我们所知,目前很少有研究人员专门研究多光谱图像的数据增广,当前的多光谱目标检测器只是采用从可见光模型的数据增强方法,并将这些方法同步应用于彩色可见光和红外图像。目前常用的数据增强方式有光度畸变和几何畸变,光度畸变包括调整图像的亮度、对比度、色调、饱和度,几何畸变包括加入随机缩放、剪切、翻转和反旋转;模拟对象遮挡的方法有random erase、cutout、hide-and-seek and grid mask;噪声增强常用的噪声模型有高斯噪声、泊松噪声或椒盐噪声。
49.由于彩色可见光图像和热红外图像显示出明显不同的特性,适合彩色可见光图像的增强可能对热红外图像没有类似的影响,可见光图像和红外图像的增强不应该相同。本技术采用的方法是采用异步随机擦除噪声增强方法对两种模态图像进行预处理,即为可见光图像和红外图像各选择一套独特的增强技术,这样可以提高多光谱红外检测模型的整体性能,同时,这种方法普遍适用于所有双输入流多光谱模型,本技术方法中去除了光度畸变,因为它不能以合理的方式应用于单色热红外图像,对于几何畸变,只需要将变化同步应用到两种模态即可。
50.本技术采用异步随机擦除噪声增强方法对两种模态图像进行预处理,异步随机擦除噪声增强如图2所示。首先我们选择使用random erase来模拟对象遮挡,即通过随机选择图像中的矩形区域,并填充一个随机的或互补的零值,这种增强可以同步或异步应用于两中模态图像,擦除可见光和红外图像中相同位置的矩形,也可以异步应用于两种模态图像,这意味着分别对可见光和红外图像采样不同的概率和参数,模型有更好的泛化能力;接下来我们为两种模态加入合适的噪声增强,高斯噪声可以用来提高基于可见光的目标检测器的鲁棒性。对于实际应用中的热红外图像,椒盐噪声是更常见和合适的噪声模型。
51.其中,将相同尺度的特征进行融合,再将不同层的特征进行多尺度融合,得到融合的特征,具体包括:
52.本技术采用重新设计策略的fusion模块。多光谱融合整体结构如图3所示,使用双路darknet53作为特征提取网络。提取可见光图片特征的部分记为darknet-a,提取红外光图片特征的部分记为darknet-b。对于大小为(416
×
416)的输入图片,特征提取网络的两个分支分别在block3、block4和block5后获得三个多尺度特征图,三个特征层的shape分别为(52,52,256)、(26,26,512)和(13,13,1024)。可见光模态的特征图记为{a1,a2,a3},红外光模态的特征图记为{b1,b2,b3}。将所得的可见光模态特征和红外光模态特征送入特征融合模块fusion中融合。
53.常见融合策略的融合(fusion)模块如图4中的fusion1所示,其将同层的特征图直接进行堆叠再通过nin(network in network)层调整通道。本技术重新设计策略的fusion模块得到改进的融合模块,采用改进的融合模块如图4中的fusion2所示,改进的融合模块的作用是更好的学习同层特征之间组合的关系。对同层特征融合后,再使用特征金字塔网络的多尺度融合方法进行多尺度融合。其中,ai和bi分别是同层可见光图像和红外图像的特征图。首先分别对ai和bi应用两个3x3的内核。随后每一条路径都使用sigmoid单元进行激活。di和ei代表激活输出,ci是ai和bi的串联。然后,我们使用ci分别对di和ei进行元素乘积运算,fi表示对两个乘积进行级联。最后利用nin的思想,对融合后的特征层进行维度压缩,即通过1
×
1卷积核对特征图进行降维,完成各模态在不同通道上的信息整合,保证融
合特征图的通道数和单模态特征图的通道数相等,使得模型可以重用后续的目标检测模块中的参数,最后通过特征金字塔网络进行多尺度融合。fusion2模块的方程式如公式(1)所示,其中

表示concatenation,表示乘积运算,ai、bi、ci、di、ei、fi和mi代表feature maps,wa、wb和wf表示kernel weights,ba、bb和bf表示kernel biases。
[0054][0055]
其中,将融合的特征送入解耦注意力模块(decoupling attention module,dam)进行注意力加强分别生成对分类和回归敏感的特征,获得多尺度适用于分类和回归的融合特征图,具体包括:
[0056]
目前大多数的目标检测框架中,分类和回归都使用共享特征。而回归和分类任务的不兼容性可能会降低性能。例如,检测器的回归分支需要对检测目标角度和尺度的变化敏感,以便实现精确的方向预测,而分类分支应该对不同的角度和尺度变化都具有相同的响应。为了避免不同任务之间的特征干扰,有效提取特定任务的关键特征,提出了解耦注意力模块。解耦注意力模块(decoupling attention module,dam)的整体结构如图5所示。首先,我们为不同的任务构建单独的多尺度多光谱融合模块。接下来,一个精心设计的混合通道注意机制被用于增强特征的表示能力。通过极化函数,不同的分支产生各自任务所需的区别特征。具体来说,对于分类,我们倾向于选择高响应的全局特征来减少噪声干扰。对于回归,我们更注重物体边界的特征,抑制无关的高激活区的影响。
[0057]
本技术采用解耦注意力机制模块(decoupling attention module,dam)。改进的通道和空间混合注意力机制(ma)是解耦注意力机制模块(dam)的一部分,另一部分是加入了激励函数和抑制函数分别得到对分类和回归敏感的特征。融合的特征通过改进的通道与空间混合注意力机制模块(mixed attention,ma),这样可以更加突出有效区域中的信息。改进的通道与空间混合注意力机制的结构如图5所示。首先,加入通道注意力机制,将输入特征fi沿着通道维度进行平均池化和最大池化得到fa和fm。按照挤压和激励网络(squeeze-and-excitation networks,senet)的方法进行squeeze-and-excitation操作得到ma和mb。将两者的输出合并后得到特征描述子;将得到的特征描述子进行sigmoid激活操作,然后与输入特征相乘。即将每个通道赋予权重,得到与原来尺寸相同的特征fc。特征在空间上的关系同样可以用来进行建模,用以补充通道注意力机制无法较好获取的位置关系信息,我们借鉴yolov4(optimal speed and accuracy of object detection)空间注意力机制的思想,使用3x3卷积操作来进行编码,得到空间注意力图,然后通过sigmoid激活函数与原来输入特征fc点乘得到特征fo。使用空间注意力机制简化了流程,同时也提高训练速度。整个注意力模块同时对通道以及空间的特征信息进行筛选。整个通道和空间注意力机制输出的特征图维度和输入的维度是一致的,不需要对网络结构进行较大的改动,并且根
据r=16的降维比例对全连接层参数进行压缩,能权衡性能与传播速度的平衡。使用全连接层是因为具其有全局感受野的,在通道注意力模块中,我们需要得到的是每个通道的权重,这其实是需要包含全局信息的。
[0058]
对于分类分支,我们期望特征更多地关注特征地图上的高响应部分,而忽略可能用于定位或可能带来干扰噪声的不太重要的线索部分。我们使用公式(2)激活函数(或激励函数)来实现该功能,分类器能够较少地关注难以分类的区域,使得关键特征集中在物体最容易识别的位置,以避免物体其他部分的干扰,从而使分类结果更加准确,并降低过拟合和误判的风险。
[0059][0060]
同时,对于回归分支,关键特征往往分散在对象的边缘。我们期望提取的回归关键特征均匀分布在物体上,有助于识别物体边界和准确定位目标,例如对象轮廓和上下文信息。为此,我们使用公式(3)抑制函数处理输入特征。
[0061][0062]
通过使用解耦注意力模块不但能帮助网络进行更准确的分类,更精准地定位物体所在的位置,而且可以改善金具漏检和定位不准确的问题。
[0063]
本技术可以达到以下有益效果:
[0064]
1、本技术在双输入流目标检测网络的基础上,针对可见光图像和红外巡检图像的不同特性,各选择一套独特的数据增强技术,提出的异步随机擦除噪声增强方法,使模型有更好的泛化能力。
[0065]
2、使用多光谱融合技术,采用重新设计的fusion模块可以更好的学习中间层生成特征的组合,明显地增强了目标的辨识度和对金具定位的准确性。
[0066]
3、使用改进的通道与空间混合注意力机制,通过抑制函数和激活函数,分别提取适用于分类和回归敏感的特征,分类和回归特征可视化结果如图6所示,每对图像的左侧表示分类任务的特征分布,右侧表示回归任务的特征分布。可以看出,经过解耦注意力模块生成的热图准确地响应了任务敏感的有效特征区域。分类所需的判别区域往往集中在物体的局部,如绝缘子的子串和屏蔽环头部和中间。而回归任务所需的有效特征更有可能分布在物体的边缘或上下文信息上,抑制函数有助于将有效的回归特征扩散到更大的区域,从而提高定位的准确性。
[0067]
为了说明本技术提出的基于解耦注意力的多光谱红外金具检测方法的优点,在红外巡检金具数据集上进行了实验。实验结果如表1所示,由实验结果可知,本技术提出的多光谱数据增广、改进的融合模块及解耦注意力机制模块,能够大幅降低金具的误检和漏检,证明了基于意力的多光谱红外巡检金具检测方法具有更好的学习能力。
[0068]
表1综合使用mda/mf/dam的实验结果
[0069][0070]
本说明书中各个部分采用递进的方式描述,每个部分重点说明的都是与其他部分的不同之处,各个部分之间相同相似部分互相参见即可。
[0071]
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本技术中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本技术所示的实施例,而是要符合与本技术所公开的原理和新颖特点相一致的最宽的范围。
转载请注明原文地址:https://win.8miu.com/read-1057924.html

最新回复(0)