本发明涉及模式识别,具体涉及一种基于多模态模型在多任务流式数据联合视觉-语言模态参数扩展的持续进化学习方法。
背景技术:
1、多模态基础模型的出现推动了下游各视觉任务的快速发展,通过语言监督来学习视觉概念,使多模态模型天然具备开放词汇能力,能够对训练中未见类别进行推断。但是,由于在真实环境下数据存在不断变化的特点,多模态模型在实际部署中仍会出现性能表现不佳的状况。模型仍然要在一次预训练后,继续提升对域外数据的识别能力。现有持续学习方法并未考虑多任务场景,学习内容往往局限于单一领域,缺乏对不同领域任务连续学习问题的研究。但是,在真实应用中,不同时刻到来的流式数据通常会来自于不同的领域,包含不同的专业知识。因此,设计针对多模态模型在多任务场景下持续学习进化方法尤为重要。
2、多模态模型在多任务持续进化学习过程中面临重要挑战,需要同时保留预训练获得的通用知识以及在各个下游任务中逐渐习得的专业领域知识。通用知识和专业领域知识可能会存在相互间的干扰,导致灾难性遗忘的出现,现有方法尚未能较好的保留来自于不同领域的任务知识,同时会导致较为严重的通用知识的遗忘。当前持续学习方法仅考虑单一视觉模态,而忽略来自文本模态的信息,同时仅在单一领域下探究模型的持续进化能力,与真实场景存在较大差异,缺乏应对多任务场景下持续学习进化的能力。为了解决上述问题,当前方法依赖于一个语义丰富的外部数据集,采用知识蒸馏方式维护模型对旧知识的保留。然而,外部数据集的存储和用于蒸馏训练的旧模型参数的使用,增加了训练的资源消耗与计算时间。
技术实现思路
1、为了克服现有技术的不足,本发明提供一种基于多模态参数扩展的多任务持续进化学习方法,用于解决在实际多任务场景下视觉语言模型持续进化学习问题。本发明在视觉模态方面设计轻量级的可学习视觉提示用于学习将全任务空间分解为离散的各任务子空间,保留不同领域的专业知识。同时,本发明在文本模态采用语义级别的参数微调技术,通过引入外部的可学习模块动态调整文本特征,避免专业知识和通用知识间的相互干扰。借助视觉-语言模态的同时参数扩展,能够极大程度保留预训练中的通用知识以及不同领域的专业知识。此外,本发明对损失函数采用动态调整策略,更好地辅助与促进多模态参数扩展更新,实现对新知识获取和旧知识保留的平衡。同时,本发明设计自适应参数扩展模块压缩算法,能够进一步避免参数量随任务数量持续增长的问题。
2、本发明解决其技术问题所采用的技术方案包括如下步骤:
3、步骤一:构建视觉模态提示扩展模块;
4、在多模态模型的图片编码器的输入部分引入可学习的视觉提示向量用于修正预训练原始表征;具体地,图片编码器中的参数保持不变,而视觉提示向量处于可学习状态,图片编码器接收rgb图片作为输入,首先编码原始图片为一系列的补丁嵌入,接着在补丁嵌入序列中插入可学习的视觉提示向量,提供任务上的引导,借助视觉提示向量修正图片特征;在模型计算自注意力权重的过程中,增加偏置项避免新加入提示向量对预训练特征的影响,同时使得前序提示向量无法获取后续提示向量;其中,的下三角矩阵部分皆为0,其余元素皆为负无穷小-inf,和为零矩阵,在新任务到来时,模型自动新增可学习视觉提示,引导和保持对新任务知识的学习和积累;
5、步骤二:构建文本模态参数高效微调扩展模块;
6、在多模态模型的文本编码器ft中引入参数高效微调模块lora,设置lora为可学习状态,而文本编码器保持冻结状态;文本编码器接收类别语义名称yc作为输入,通过加入lora后的文本编码器后得到可学习的文本特征;为了稳定语义级别知识的学习,对可学习的文本表征加入l2惩罚约束,限制文本特征的过度学习,尽可能与预训练的文本表征相近,如公式(1)所示,计算约束损失 l 2,缓解对前序任务的遗忘;
7、 (1)
8、其中,d代表文本特征的维度数量;为可学习表征的第i个维度,为预训练文本表征的第i个维度;在新任务学习后,仅保留当前语义概念对应的文本表征,而丢弃参数高效微调模块lora,进一步减少参数量的潜在增长;
9、步骤三:模型优化学习;
10、采用clip-vit-l/14模型作为视觉语言模型代表,进行目标识别任务的持续进化学习;clip-vit-l/14模型在学习当前目标识别任务时计算得到总损失函数;
11、步骤四:损失函数动态调整策略;
12、提出基于类别预测分数动态调整损失函数中涉及的类别,结合历史类别信息统一考虑模型的识别能力;对于当前任务的输入图片,模型根据计算得到图片与文本特征的余弦相似度,为视觉提示向量修正图片特征,t为转置,为文本表征,对于错误预测样本,选择高于真值类别预测分数的top-k类别作为负类样本,加入到当前损失函数的计算中,如公式(5)所示:
13、 (5);
14、通过负样本选择策略,增强模型跨任务类别的识别能力;
15、步骤五:自适应参数扩展模块压缩;
16、为了限制潜在的过度增长的扩展模块所含有的参数量,提出自适应的多模态扩展模块压缩策略;
17、当模型扩展模块的参数量超过使用者设定的上限阈值后,自动进行模块压缩蒸馏操作;具体地,对原始多模态模型进行复制,在复制后的模型视觉模态部分引入数量减半的可学习视觉提示向量,采用logit蒸馏损失,将超过设定值模型的知识蒸馏到小模型中,如公式(6)所示:
18、 (6)
19、其中,其中,是在旧类别上采用kl散度作为蒸馏损失函数,c为旧类别的类别数目,为了方便表示,假设对于输入图片,代表新模型在第i个类别上获得的余弦相似度,代表旧模型在第i个类别上获得的余弦相似度, 则新模型在类别上的概率值为,而旧模型在类别上的概率值为,为温度系数。
20、所述clip-vit-l/14模型在学习当前目标识别任务时计算总损失函数的具体步骤为:
21、对于新任务的数据,按照步骤一和步骤二分别提取输入类别名称和图片的文本特征和视觉提示向量修正图片特征;采用余弦相似度计算文本表征和图片视觉特征之间的相似性,如公式(2)所示:
22、 (2)
23、计算修正后图片表征与文本特征间的余弦相似性作为当前输入的类别预测分数,使用标准的交叉熵损失作为优化目标,如公式(3)所示:
24、 (3)
25、其中,是温度系数,代表批量大小batchsize,代表第t个阶段数据所含有的类别数目,是对应图片的真值标签,总损失l的函数如公式(4)所示,l为总损失。
26、 (4)。
27、所述步骤三中,采用adam优化器优化模型网络参数,学习率设置为0.001,批量大小取128。
28、本发明采用kl离散度作为损失函数,维持模型的预测输出同时有效减少参数量。
29、本发明的有益效果在于:
30、(1)本发明针对实际应用场景下多任务持续学习进化问题,提出一个参数轻量化且训练高效的方法,充分利用来自于两模态的知识,通过联合多模态参数扩展方式学习实现模型的稳定性-可塑性间的平衡,缓解进化学习中存在的灾难性遗忘问题。
31、(2)本发明提出的方法属于无数据回放方法,不需要存储过去数据样本或者借助外部数据集,减少了存储开销和潜在的隐私隐患问题,同时能够取得与借助外部数据集方法相近的效果。
32、(3)本发明提出的方法在持续进化过程中采用参数高效的微调策略,减少了训练资源需求,缩短了学习进化时间。同时,采用自适应参数扩展模块压缩策略,有效避免了模型潜在的参数量随任务数增长的问题。
1.一种基于多模态参数扩展的多任务持续进化学习方法,其特征在于包括下述步骤:
2.根据权利要求1所述的基于多模态参数扩展的多任务持续进化学习方法,其特征在于:
3.根据权利要求1所述的基于多模态参数扩展的多任务持续进化学习方法,其特征在于:
4.根据权利要求1所述的基于多模态参数扩展的多任务持续进化学习方法,其特征在于:
5.根据权利要求2所述的基于多模态参数扩展的多任务持续进化学习方法,其特征在于:
6.根据权利要求1所述的基于多模态参数扩展的多任务持续进化学习方法,其特征在