一种基于多视角图像特征融合的图像和谐化方法

专利检索2026-02-09  0


本发明公开了一种基于多视角图像特征融合的图像和谐化方法,属于图像合成领域。


背景技术:

1、图像和谐化是图像编辑中的常见操作之一。在图像合成中,由于前景和背景是在不同的环境条件(如光照、角度等)下获取的,因此在合成后前景和背景之间会出现明显的视觉不一致性,降低了合成图像的真实度。因此,图像和谐化旨在调节合成图像中的前景物体的外观与背景相匹配,使得整张图像呈现视觉风格的一致性,提高合成图像的真实感。随着元宇宙的兴起,在虚拟世界中重建现实人物,并形成逼真视觉图像的需求急剧增加,但是传统的三维重建方法需要使用专门的设备对人物进行细致的扫描,再将扫描数据导入三维软件中进行建模和渲染,不仅价格昂贵耗时漫长,也十分不便,限制了元宇宙的相关应用在普通用户之间的大规模普及。因此,使用图像和谐化的方法,从人物的图像中获取人物的外观特征,并在虚拟世界中进行人物图像与背景图像的真实合成,是很有必要的。

2、图像和谐化方法主要分为两种,一种是基于手工提取的特征的方法,另一种是基于深度学习的方法。基于手工提取的特征的方法主要是根据人类的知识来提取图像的低层次外观统计信息,并对其进行调整,使得合成图片的前景和背景在低水平上呈现连续性。基于手工提取的特征的方法需要设计先验知识,但是先验知识的设计往往是复杂且主观的,因此基于深度学习的方法,由于无需人为设定先验知识,展现了更好的发展潜力。基于深度学习的方法又分为两类,一种是使用一个编码器-解码器结构神经网络,以合成图像和相应的掩码为输入,直接输出一个和谐化图像;另一种则是使用神经网络根据待合成图像生成若干个滤镜,再将这些滤镜应用到原图像,得到最终的和谐化图像。然而,现有的基于深度学习的方法仅从单一视角图像进行前景和背景特征的提取,这使得网络只能从单一图像中获取图像中前景和背景之间的联系,不能很好地理解图像的整体特征,因此无法得到较好地合成效果。


技术实现思路

1、为解决上述问题,本发明提供了一种能够同时利用多个视角图像的特征来对合成图像的前景进行颜色调整的图像和谐化方法。该方法构建了一个特征融合和谐化网络,同时提取若干幅从不同拍摄角度获取的图像的特征,并将提取到的特征进行融合处理,得到单一图片无法完全反映的完整场景信息,进而产生最终的和谐化图像结果。所述网络由三个模块组成,分别为语义解析模块、和谐化骨干模块和特征融合模块。本发明提出的技术方案如下:

2、一种基于多视角图像特征融合的图像和谐化方法,该方法同时提取若干幅从不同拍摄角度获取的图像的特征,并将提取的特征进行融合处理,得到单一图片无法完全反映的完整场景信息,进而产生最终的和谐化图像结果,该方法具体包括以下步骤:

3、s1、获取图像数据:从数据集中获取同一场景中从不同拍摄角度获取的n组合成图像与真实图像对,对于每一组合成图与真实图像对,真实图像是直接拍摄得到的,将真实图像的背景保持不变,人为修改前景物体的外观,就得到了合成图像,合成图像的前景与背景具有一定的视觉风格差异,同时对于每一张合成图像,都存在一张区分前景背景的掩码图像,将n张合成图像分别用ic0、ic1、……、ic(n-1)来表示,对应的掩码用m0、m1、……、mn-1来表示,对应的真实图像用ir0、ir1、……、ir(n-1)来表示;

4、s2、构建特征融合和谐化网络,该网络由三部分组成,分别为语义解析模块、和谐化骨干模块和特征融合模块,其中,语义解析模块负责提取图像中的语义特征,并输出特征图嵌入到和谐化骨干模块中;和谐化骨干模块是一个编码器-解码器结构的网络,图像输入编码器,得到一系列尺寸不断减小,通道数不断增加的特征图;特征融合模块将不同图像经过和谐化骨干模块编码器的最后一层特征图进行融合,然后送入到解码器中;在解码器中,特征图的尺寸不断增加,通道数不断减小,最终得到一个尺寸与输入相同,通道数为3的和谐化图像;

5、s3、网络以n个合成图像与掩码的组合为输入,得到n个和谐化图像,和谐化图像与真实图像构成像素级损失,编码器输出特征与融合后的特征构成l1损失,利用上述两个损失的加权和作为总的损失函数来约束网络的训练过程,不断更新网络参数,生成最优模型;

6、s4、将测试集输入到最优模型,生成和谐化图像。

7、进一步地,步骤s2中的所述语义解析模块包含两部分,分别为高分辨率学习表示部分和物体上下文表示部分,高分辨率学习表示部分包括依次相连的第一阶段模块、第二阶段模块、第三阶段模块、第四阶段模块:第一阶段由高分辨率卷积块组成,第二、三、四阶段由并行支数依次增加的高分辨率卷积块组成;物体上下文部分表示由一个物体注意力块和批正则化随机丢弃块组成,物体注意力块使用注意力机制的原理对高分辨率学习表示部分输出的特征图进行处理,再送入批正则化丢弃块中进行批正则化和随机丢弃。将最终得到的特征图送入到和谐化骨干模块的编码器的第2层中;

8、步骤s2中的所述和谐化骨干模块由一个编码器和一个解码器组成,是一个对称结构,编码器和解码器的每个卷积块包括卷积层,批正则化层和elu激活层,对称的两个卷积块之间采用跳跃连接方式进行连接;

9、步骤s2中的所述特征融合模块由一个卷积层、一个批正则化层、一个随机丢弃层和一个leakyrelu激活层组成。

10、进一步地,步骤s2的具体流程为:将合成图像ic0、ic1、……、ic(n-1)依次送入到语义解析模块中,再将对应的掩码m0、m1、……、mn-1经过一层卷积后与语义解析模块第一层输出的特征图进行相加,进行后续的语义解析处理,得到n个语义特征图;将合成图像ic0、ic1、……、ic(n-1)和相应的掩码m0、m1、……、mn-1分别在通道维度上连接后依次送入和谐化骨干模块的编码器,将对应的语义特征图与和谐化骨干模块编码器的第三层特征图在通道维度上连接,送入编码器的下一层;将n个编码器输出的最后一层特征图在通道维度上连接后送入特征融合模块处理,得到一个通道数与编码器输出特征图相同的特征图,送入到解码器的第一层,最后由解码器输出和谐化结果,再将该结果根据对应的掩码将前景物体分割出来,粘贴到原始待合成图像的对应位置上去,就得到最终的和谐化图像ih0、ih1……ih(n-1),该流程可用下述公式表示:

11、semantic_featurei=semantic_parsing_moudle(ici,mi) i=0,1,……,n-1

12、encoder_featurei=encoder(cat(ici,mi),semantic_featurei) i=0,1,……,n-1

13、

14、iresult_i=decoder(encoder(cat(ici,mi),semantic_featurei),fusion_feature)i=0,1,……,n-1

15、

16、其中semantic_parsing_moudle代表语义解析模块,encoder代表和谐化骨干模块的编码器,decoder代表和谐化骨干模块的解码器,cat表示通道维度连接操作,encoder_featurei代表编码器输出的特征图,fusion_moudle代表特征融合模块,fusion_feature代表特征融合模块输出的特征图。

17、进一步地,步骤s3具体包括:

18、像素级重构损失函数,公式为

19、

20、其中,lrec代表像素级重构损失,ihi代表网络预测的和谐化图像,ir代表真实图像,m代表掩码,h代表图像的高度,w代表图像的宽度;

21、编码器输出特征与融合特征的l1损失,公式为:

22、

23、其中,lfea代表l1损失,encoder_featurei代表编码器输出的特征图,fusion_feature代表特征融合模块输出的特征图;

24、训练过程中整个网络使用的损失函数是上述两部分损失函数的加权和:

25、loss=lrec+λlfea

26、loss代表整个网络的损失函数,λ代表人为设置的权重参数,在此设置为0.1。

27、与现有的其他技术相比,本发明具有如下的有益效果:

28、1、通过使用经过预训练的语义解析模块提取输入图像的语义特征并嵌入到和谐化骨干模块,使和谐化骨干模块获得了更为丰富的语义信息,增强了网络的特征表征能力。

29、2、通过特征融合模块将多个视角图像的特征进行融合,从而使得网络对输入图像的场景内容有更全面的理解,提高网络的性能和预测能力。


技术特征:

1.一种基于多视角图像特征融合的图像和谐化方法,该方法同时提取若干幅从不同拍摄角度获取的图像的特征,并将提取的特征进行融合处理,得到单一图片无法完全反映的完整场景信息,进而产生最终的和谐化图像结果,该方法具体包括以下步骤:

2.根据权利要求1所述的基于多视角图像特征融合的图像和谐化方法,其特征在于:步骤s2中的所述语义解析模块包含两部分,分别为高分辨率学习表示部分和物体上下文表示部分,高分辨率学习表示部分包括依次相连的第一阶段模块、第二阶段模块、第三阶段模块、第四阶段模块:第一阶段由高分辨率卷积块组成,第二、三、四阶段由并行支数依次增加的高分辨率卷积块组成;物体上下文部分表示由一个物体注意力块和批正则化随机丢弃块组成,物体注意力块使用注意力机制的原理对高分辨率学习表示部分输出的特征图进行处理,再送入批正则化丢弃块中进行批正则化和随机丢弃。将最终得到的特征图送入到和谐化骨干模块的编码器的第2层中;

3.根据权利要求1所述的基于多视角图像特征融合的图像和谐化方法,其特征在于:步骤s2的具体流程为:将合成图像ic0、ic1、……、ic(n-1)依次送入到语义解析模块中,再将对应的掩码m0、m1、……、mn-1经过一层卷积后与语义解析模块第一层输出的特征图进行相加,进行后续的语义解析处理,得到n个语义特征图;将合成图像ic0、ic1、……、ic(n-1)和相应的掩码m0、m1、……、mn-1分别在通道维度上连接后依次送入和谐化骨干模块的编码器,将对应的语义特征图与和谐化骨干模块编码器的第三层特征图在通道维度上连接,送入编码器的下一层;将n个编码器输出的最后一层特征图在通道维度上连接后送入特征融合模块处理,得到一个通道数与编码器输出特征图相同的特征图,送入到解码器的第一层,最后由解码器输出和谐化结果,再将该结果根据对应的掩码将前景物体分割出来,粘贴到原始待合成图像的对应位置上去,就得到最终的和谐化图像ih0、ih1……ih(n-1),该流程可用下述公式表示:

4.根据权利要求1所述的基于多视角图像特征融合的图像和谐化方法,其特征在于:步骤s3具体包括:


技术总结
本发明公开了一种能够同时利用多个视角图像进行人像颜色调整的图像和谐化方法。该方法由三个模块组成,分别为语义解析模块、和谐化骨干模块和特征融合模块。其中,语义解析模块负责提取图像中的语义特征,并输出特征图嵌入到和谐化骨干模块中;和谐化骨干模块是一个由编码器、解码器组成的对称网络结构;融合模块将不同图像经过和谐化骨干模块编码器的特征图进行融合,然后送入到解码器中,得到最终的和谐化图像。

技术研发人员:孙建德,苏成,李静,万文博,张凯,王建,张善心
受保护的技术使用者:山东师范大学
技术研发日:
技术公布日:2024/5/29
转载请注明原文地址:https://win.8miu.com/read-1160937.html

最新回复(0)