一种多样性提示学习的少样本遥感目标识别泛化性的方法

专利检索2025-02-12  32


本发明属于计算机视觉图像处理,涉及多模态遥感图像目标识别方法,特别涉及一种多样性提示学习的少样本遥感目标识别泛化性的方法。


背景技术:

1、与本发明相关的方法包括三个方面:一是多模态识别,二是域泛化问题,三是遥感图像识别。

2、多模态识别是利用文本、图像、声音等多种模态配合,共同完成图像识别任务。alec radford等人的clip模型在《learning transferable visual models from naturallanguage supervision》一文中利用文本模态和图像模态组成多模态识别模型,拉近正样本的图像文本对在特征空间上的距离完成识别任务,是首个利用文本端获取大量数据集的大规模模型。为了使clip模型适配特定领域的数据集,zhou等人的coop模型在《learningto prompt for vision-language models》一文中固定clip模型原始结构,在文本的输入端把固定的文本提示换为可学习的向量参数,通过学习提示来使原始的clip模型适配某种数据集。此外,gao等人在《better vision-language models with feature adapters》中提出clip-adapter模型,在图像端引入适配器来使原始的clip模型适配某种特定数据集。

3、域泛化问题旨在学习一种通用的表示,使在源域上训练的模型能在未知的目标域上表现良好。li等人在《deep domain generalization via conditional invariantadversarial networks》中利用域不变表示学习的深度学习网络提出了一种条件不变深度域泛化方法。du等人在《learning to learn with variational information bottleneckfor domain generalization》中引入了概率元学习模型,其中域间的分类器参数共享。nam等人在《reducing domain gap by reducing style bias》中利用风格无关网络减少内在的风格偏置来拉近域间的距离。

4、遥感图像识别是识别卫星或航空拍摄的遥感图像属于哪一场景或物体。比如,zheng等人在《domain adaptation via a task-specific classifier framework forremote sensing cross-scene classification》中提出了一种具体任务分类器框架,来提高空间分辨率遥感分类的域适应能力。zhao等人在《feature balance for fine-grainedobject classification in aerial images》中提出了一种特征平衡策略来解决细粒度遥感目标分类问题。

5、遥感图像识别任务是遥感领域的一个重要任务,应用十分广泛。然而,现实生活中遥感图像样本数量稀少。少样本的遥感图像会降低模型的识别性能以及泛化性。clip模型因引入了文本端的大模型以及充足的数据集实现了很好的泛化效果。然而,由于clip用自然图像数据集训练,无法在专业的遥感图像领域实现很好的性能。coop模型固定clip原始模型,在文本端引入可学习的提示,从而实现在专业数据集领域具有很好的表现。然而,由于coop仅有一个提示,容易导致模型过拟合。因此,本专利提出了基于多提示的遥感图像识别方法来提升模型的泛化性。在该方法中,本专利将一个提示改进为多个提示,以便实现提示的多样性,再利用风格多样性损失拉远提示在特征空间上的距离,从而提高模型的泛化性能。


技术实现思路

1、针对少样本遥感目标识别的泛化性问题,提出了一种多样性提示学习的方法。该方法在coop的基础上引入了多个提示,提示的向量维度相同但参数不共享。再用风格多样性损失和分类损失去约束可学习提示的多样性和分类作准确度。本发明的训练方式是端到端的训练方式。

2、本发明的技术方案:

3、一种多样性提示学习dpl的少样本遥感目标识别泛化性的方法,用图像文本多模态的方式进行训练,将多个含有可学习的提示的文本向量输入参数固定的文本编码器得到文本特征,将图像输入到参数固定的图像编码器得到图像特征,用分类损失和风格多样性损失更新提示参数,直至dpl模型收敛;

4、步骤如下:

5、(1)构建模型

6、模型整体结构由clip模型构成;clip模型是多模态结构,分为文本端和图像端两个输入分支;

7、文本端使用文本编码器,由transformer网络组成;文本编码器首先在作为输入的文本向量上加上位置编码获取文本向量的位置信息,再经过层归一化、遮罩多头注意力和全连接层,得到文本特征;

8、图像端使用图像编码器,选用vit-32的视觉transformer结构,其中32表示输入图像块的数量;

9、在clip模型中,文本端的输入是“提示+类别”的结构,即“a photo of a[class].”;提示有多种不同的形式,根据图像的风格选用适合的提示作为文本的描述,组合不同的类别,得到多个文本,如公式(1)所示:

10、

11、其中,content是提示的文本描述;是类别文本描述;

12、文本编码成文本向量的形式输入到文本编码器中;图像端的输入是图像;文本编码器和图像编码器分别输出文本特征和图像特征,用对比学习的方式让同一类别的正样本图像特征和文本特征彼此相近,并使不同类别的图像特征和文本特征彼此远离,将文本特征和图像特征映射到同一特征空间中,再用softmax进行归一化,得到的原始的clip分类损失如公式(2)所示:

13、

14、其中,是余弦相似度;是图像特征;是正样本文本特征,即与相同类别的文本特征;是第j个文本特征;是温度系数;

15、在推理过程中,文本编码器相当于分类器,将不同类别的文本向量输入到文本编码器中,将待测试的图像输入到图像编码器中,判断不同类别的文本特征与待测试的图像特征的相似度,相似度最高的文本向量即为图像的类别;

16、(2)多样性提示

17、clip由于大量数据集训练大模型而具有优越的性能。然而由于clip使用自然图像样本训练,对其他专业领域的数据集效果较差。且由于clip使用大规模模型和大量数据集训练,很难用迁移学习的方式微调clip模型,容易导致模型过拟合。为了将clip模型迁移到专一数据集,使用coop模型对clip模型做出改进成dpl模型;由于clip模型是用大规模数据集训练大模型,不适合用迁移学习的方式进行微调,容易过拟合。因此,coop模型加载clip模型训练好的图像编码器和文本编码器的参数并固定,将文本端的提示变为可学习的提示向量,通过学习提示向量使coop模型在单一专业领域数据集有好的表现;文本端引入可学习的提示向量来训练coop模型,如公式(3)所示:

18、<mi>t</mi><mi>=p+[class]</mi><mi>(3)</mi>

19、其中,<mi>p=</mi><msub><mi>[v]</mi><mn>1</mn></msub><msub><mi>[v]</mi><mn>2</mn></msub><mi>…</mi><msub><mi>v</mi></mfenced><mi>k</mi></msub>是提示向量,即文本的抽象描述;是单词向量,由初始单词经过编码得到,<mi>k∈k</mi><mi>;</mi><mi>[class]</mi>是图像的类别描述;为了提高文本提示的多样性,防止过拟合,在coop模型的基础上进一步改进,得到dpl模型;在文本端引入多个可学习的提示向量,则多个文本向量表示为:<mrow><msub><mi>t</mi><mn>1</mn></msub><mi>,</mi><msub><mi>t</mi><mn>2</mn></msub><mi>,</mi><mi>…</mi><mi>,</mi><msub><mi>t</mi><mi>m</mi></msub></mrow></mfenced><mi>={</mi><msub><mi>p</mi><mn>1</mn></msub><mi>+[class],</mi><msub><mi>p</mi><mn>2</mn></msub><mi>+[class],</mi><mi>…</mi><mi>,</mi><msub><mi>p</mi><mi>m</mi></msub><mi>+[class]}</mi>;

20、(3)风格多样性损失

21、多个提示可避免模型的过拟合;如果不对提示施加约束,dpl模型会沿着最适合当前数据集的方向学习,多个提示可能会学习到相同的参数;因此,提出一种风格多样性损失,在文本特征空间上拉远提示特征之间的距离,使其广泛地分布在整个空间中,提高dpl模型的泛化性能;在原始clip模型的固定提示中,提示是类似“a photo of a”、“a pictureof a”的文本描述,而改进的coop模型发现好的文本提示比差的文本提示对模型的表现提高很多。因此coop模型使用可学习的向量作为提示,试图通过模型学习出最优的提示,这种最优的提示可以看作是抽象的图像风格描述,因此该损失从另一个角度来看相当于是增加多种文本风格描述,并用风格多样性损失使各个文本风格之间差异最大,使风格分布在整个空间中,从而提升模型的泛化性。风格多样性损失如公式(4)所示:

22、

23、其中,m是提示个数,和是不同的提示特征,即,是文本编码器;sim()是余弦相似度,即;该风格多样性损失使提示输入到文本编码器后的特征两两正交,来最大化特征之间的距离;

24、(4)分类损失

25、虽然用风格多样性损失可最大化提示特征之间的距离,使提示特征具有多样的风格,但是容易偏向另一个极端,即过于多样造成文本风格描述不准确,偏向负样本信息的描述,导致分类结果不准确;因此,用分类损失来约束风格多样的提示,实现准确分类;分类损失是输入到文本编码器的文本特征和输入到图像编码器的图像特征之间作对比学习,也就是最大化正样本的图像和文本对之间的相似度,最小化负样本图像和文本对之间的相似度;该分类损失与原始的clip分类损失类似,唯一区别是文本特征有多个,需要多个图像和文本对的分类损失相加;分类损失如公式(5)所示:

26、

27、其中是图像特征,是与图像类别相同的正样本文本特征,是第j个文本特征,m是提示个数;

28、dpl模型的总损失如下:

29、

30、其中是分类损失,是风格多样性损失,是平衡两个损失的超参数,取0.5。

31、本发明的有益效果:本发明基于多样性提示学习的遥感目标泛化性方法,在原始clip模型的改进模型coop的基础上,增加了多个不同的提示,来提高文本风格描述的多样性。为了使风格描述之间互相远离,提出了风格多样性损失,用使提示特征两两正交的方式使提示特征相互远离,从而提升模型的泛化性。此外,为了使文本风格描述不偏离原始图像类别信息,用分类损失加以约束。综上所述,本发明提升了少样本遥感图像识别的泛化性。


技术特征:

1.一种多样性提示学习dpl的少样本遥感目标识别泛化性的方法,其特征在于,步骤如下:


技术总结
本发明属于计算机视觉图像处理技术领域,一种多样性提示学习的少样本遥感目标识别泛化性的方法。用图像文本多模态的方式进行训练,将多个含有可学习的提示的文本向量输入参数固定的文本编码器得到文本特征,将图像输入到参数固定的图像编码器得到图像特征,用分类损失和风格多样性损失更新提示参数,直至DPL模型收敛。本发明在原CLIP模型的改进模型CoOp的基础上,增加多个不同的提示来提高文本风格描述的多样性。为使风格描述间互相远离,提出风格多样性损失,用使提示特征两两正交的方式使提示特征相互远离,从而提升模型的泛化性。为了使文本风格描述不偏离原始图像类别信息,用分类损失加以约束。本发明的方法提升了少样本遥感图像识别的泛化性。

技术研发人员:赵文达,吕香竹,王海鹏,刘颢,杨向广,夏学知
受保护的技术使用者:大连理工大学
技术研发日:
技术公布日:2024/5/29
转载请注明原文地址:https://win.8miu.com/read-1149965.html

最新回复(0)