本发明涉及计算机视觉社区,特别是涉及一种基于强化学习的红外对抗补丁生成方法及装置。
背景技术:
1、目标检测器大多由深度神经网络(deep neural networks,dnns)训练而成,经过训练的dnn容易受到轻微扰动的影响,在图像上加入人眼不可见的噪声,或者给图片增加如颜色、纹理和伪装等属性,可以使得dnn难以识别目标图像。当前,通常通过给图片增加如颜色、纹理和伪装等属性生成对抗样本进而通过对抗训练来提高目标检测器的鲁棒性。
2、基于补丁的对抗攻击被定义为使用精心制作的对抗补丁欺骗dnn的攻击,并且经常被应用于物理攻击。基于补丁的对抗攻击方法用补丁替换威胁图像的局部区域,而不考虑扰动约束。当前的基于补丁的对抗攻击方法主要集中在为可见光对抗补丁设计特殊的结构和纹理,对抗补丁大多为可见光场景下的彩色图像,生成的对抗贴片包含细节较多,对抗攻击效果更为容易实现,而红外灰度图像区别于可见光图像缺乏大量特征信息,可见光的对抗攻击手段并不适用于红外。
3、现有技术中,通常采用以下两种方法在红外场景下生成对抗补丁,一种是使用类似于可见光对抗补丁的复杂的红外纹理,另一种是使用传统启发式算法,生成不规则形状的补丁,或者零散分布的补丁块,并使用各种材料在物理世界模拟补丁灰度。
4、然而,使用复杂的纹理的红外对抗补丁,物理世界红外成像难以得到复杂纹理,成本高,实际可操作性差,使用启发式算法得到的红外对抗补丁训练时间长,物理中难以与训练出的不规则补丁形状完全吻合,或补丁位置分散,补丁灰度呈现单一,对抗攻击有效性低。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种基于强化学习的红外对抗补丁生成方法及装置,生成的红外对抗补丁的结构和纹理简单,可操作性强,且攻击有效性高。
2、第一方面,本发明提供了一种基于强化学习的红外对抗补丁生成方法,包括以下步骤:
3、初始化补丁,获得初始的过程样本;
4、将初始灰度块的坐标和灰度作为状态信息输入到强化学习的决策网络中获得下一时间步执行动作;
5、根据下一时间步执行动作更新状态信息,获得下一时间步的过程样本;
6、判断时间步的步数是否超过预设时间步阈值,若是,执行下一步骤,否则,将更新的状态信息输入到强化学习的决策网络中获得更新的下一时间步执行动作,并返回根据下一时间步执行动作更新状态信息的步骤;
7、基于所有的过程样本计算强化学习的决策网络对应的总奖励值;
8、根据总奖励值建立收敛曲线,判断收敛曲线是否收敛,若是,将收敛曲线收敛时对应的强化学习的决策网络作为训练好的红外对抗补丁的决策网络并执行下一步骤,否则,更新强化学习的决策网络并返回初始化补丁的步骤;
9、根据训练好的红外对抗补丁的决策网络在补丁区域张贴灰度块获得红外对抗补丁。
10、在其中一个实施例中,下一时间步执行动作为选择下一时间步灰度块在补丁区域张贴的坐标和灰度。
11、在其中一个实施例中,初始化补丁,获得初始的过程样本包括:
12、确定补丁区域;
13、在补丁区域构建初始灰度块;
14、将初始灰度块张贴至补丁区域的初始灰度块坐标处,获得初始的过程样本。
15、在其中一个实施例中,在补丁区域构建初始灰度块包括:
16、在补丁区域任意选择一个坐标作为初始灰度块的坐标;
17、设定初始灰度块的灰度和大小。
18、在其中一个实施例中,根据下一时间步执行动作更新状态信息包括:
19、在补丁区域根据下一时间步执行动作选择一个坐标作为下一时间步灰度块的坐标;
20、根据下一时间步执行动作设定下一时间步灰度块的灰度和大小,其中,下一时间步灰度块的大小和初始灰度块的大小相同。
21、在其中一个实施例中,基于所有的过程样本计算强化学习的决策网络对应的总奖励值包括:
22、将所有过程样本输入到目标检测器获得每个过程样本的目标置信度;
23、计算所有相邻时间步的过程样本对应的目标置信度的差值;
24、通过奖励函数计算所有差值的奖励值;
25、将所有差值对应的奖励值累加获得总奖励值。
26、在其中一个实施例中,根据经验池更新强化学习的决策网络;
27、经验池包括每个时间步的经验,经验的格式为<状态信息,执行动作,奖励值,更新状态信息>。
28、第二方面,本发明还提供了一种基于强化学习的红外对抗补丁生成方法装置,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述基于强化学习的红外对抗补丁生成方法的步骤。
29、本发明的有益效果:本发明采用灰度块作为红外对抗补丁的基本单元,由灰度块依次拼接形成红外对抗补丁,简化了红外对抗补丁的结构和纹理,增强了对抗补丁的可操作性。此外,本发明补丁单元即灰度块是由训练好的红外对抗补丁的强化学习的决策网络来确定在红外图像中合适的张贴区域以及合适的灰度,并将灰度块进行张贴,能够减低红外图像中目标的置信度,实现较好的对抗攻击效果。
1.一种基于强化学习的红外对抗补丁生成方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于强化学习的红外对抗补丁生成方法,其特征在于,所述下一时间步执行动作为选择下一时间步灰度块在补丁区域张贴的坐标和灰度。
3.根据权利要求2所述的基于强化学习的红外对抗补丁生成方法,其特征在于,初始化补丁,获得初始的过程样本包括:
4.根据权利要求3所述的基于强化学习的红外对抗补丁生成方法,其特征在于,在所述补丁区域构建初始灰度块包括:
5.根据权利要求4所述的基于强化学习的红外对抗补丁生成方法,其特征在于,根据所述下一时间步执行动作更新状态信息包括:
6.根据权利要求1所述的基于强化学习的红外对抗补丁生成方法,其特征在于,基于所有的过程样本计算所述强化学习的决策网络对应的总奖励值包括:
7.根据权利要求1所述的基于强化学习的红外对抗补丁生成方法,其特征在于,根据经验池更新强化学习的决策网络;
8.一种基于强化学习的红外对抗补丁生成装置,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
