图像处理方法、装置、电子设备及存储介质与流程

专利检索2024-12-03 39

本公开涉及计算机，尤其涉及图像处理方法、装置、电子设备及存储介质。

背景技术：

1、近些年来，计算机视觉和深度学习等技术的不断进步，使得图像处理技术取得了快速的发展。

2、基于生成对抗网络的图像生成技术虽然带来了新的图像生成模式，但是会导致较为严重的模式坍塌问题，生成的图像多样性比较差；基于扩散模型的文生图技术或图生图技术在应用到虚拟模特图像中时所生成的图像的质量难以满足复杂的产品需求。

技术实现思路

1、本公开提供图像处理方法、装置、电子设备及存储介质，以至少解决相关技术中虚拟模特图像的质量不佳的问题。本公开的技术方案如下：

2、根据本公开实施例的第一方面，提供一种图像处理方法，包括：

3、获取初始人台模特图像、模特形象指示信息和背景指示信息；

4、确定所述初始人台模特图像对应的服饰蒙版图、所述初始人台模特图像对应的边缘检测图和所述初始人台模特图像对应的深度图；所述服饰蒙版图指示服饰区域信息，所述边缘检测图指示服饰边缘信息，所述深度图指示人台模特的姿势信息；

5、将所述初始人台模特图像、所述模特形象指示信息、所述背景指示信息、所述服饰蒙版图、所述边缘检测图和所述深度图输入多条件可控扩散模型，以使所述多条件可控扩散模型以所述服饰蒙版图、所述边缘检测图和所述深度图为图像控制条件，以所述模特形象指示信息和所述背景指示信息为文本控制条件，对所述初始人台模特图像进行图像可控编辑处理，得到虚拟模特图像，所述虚拟模特图像中虚拟模特的模特形象与所述模特形象指示信息对应，所述虚拟模特图像的图像背景与所述背景指示信息对应，所述虚拟模特图像与所述初始人台模特图像包含相同的服饰信息。

6、可选的，所述多条件可控扩散模型包括文本编码模块、前向扩散模块和反向生成模块，所述将所述初始人台模特图像、所述模特形象指示信息、所述背景指示信息、所述服饰蒙版图、所述边缘检测图和所述深度图输入多条件可控扩散模型，以使所述多条件可控扩散模型以所述服饰蒙版图、所述边缘检测图和所述深度图为图像控制条件，以所述模特形象指示信息和所述背景指示信息为文本控制条件，对所述初始人台模特图像进行图像可控编辑处理，得到虚拟模特图像，包括：

7、将所述模特形象指示信息输入所述文本编码模块，进行文本编码处理，得到形象文本特征信息；

8、将所述背景指示信息输入所述文本编码模块，进行文本编码处理，得到背景文本特征信息；

9、将所述初始人台模特图像输入所述前向扩散模块，进行加噪处理，得到噪声图像；

10、基于所述模特形象指示信息、所述背景指示信息和所述服饰蒙版图，确定服饰区域控制信息；

11、基于所述模特形象指示信息、所述背景指示信息和所述边缘检测图，确定服饰边缘控制信息；

12、基于所述模特形象指示信息、所述背景指示信息和所述深度图，确定姿势控制信息；

13、将所述形象文本特征信息、所述背景文本特征信息、所述噪声图像、所述服饰区域控制信息、所述服饰边缘控制信息和所述姿势控制信息输入所述反向生成模块，以使所述反向生成模块以所述服饰区域控制信息、所述服饰边缘控制信息和所述姿势控制信息为图像控制条件，以所述形象文本特征信息与所述背景文本特征信息为文本控制条件，对所述噪声图像进行去噪处理，得到所述虚拟模特图像。

14、可选的，所述多条件可控扩散模型还包括第一条件网络模块、第二条件网络模块和第三条件网络模块，所述基于所述模特形象指示信息、所述背景指示信息和所述服饰蒙版图，确定服饰区域控制信息；基于所述模特形象指示信息、所述背景指示信息和所述边缘检测图，确定服饰边缘控制信息；基于所述模特形象指示信息、所述背景指示信息和所述深度图，确定姿势控制信息，包括：

15、对所述服饰蒙版图、所述边缘检测图、所述深度图分别进行特征提取处理，得到所述服饰蒙版图对应的服饰蒙版特征图、所述边缘检测图对应的边缘检测特征图和所述深度图对应的深度特征图；

16、将所述模特形象指示信息对应的所述形象文本特征信息、所述背景指示信息对应的所述背景文本特征信息和所述服饰蒙版特征图输入所述第一条件网络模块，进行特征编码处理，得到所述服饰区域控制信息；

17、将所述形象文本特征信息、所述背景文本特征信息和所述边缘检测特征图输入所述第二条件网络模块，进行特征编码处理，得到所述服饰边缘控制信息；

18、将所述形象文本特征信息、所述背景文本特征信息和所述深度特征图输入所述第三条件网络模块，进行特征编码处理，得到所述姿势控制信息。

19、可选的，所述将所述形象文本特征信息、所述背景文本特征信息、所述噪声图像、所述服饰区域控制信息、所述服饰边缘控制信息和所述姿势控制信息输入所述反向生成模块，以使所述反向生成模块以所述服饰区域控制信息、所述服饰边缘控制信息和所述姿势控制信息为图像控制条件，以所述形象文本特征信息与所述背景文本特征信息为文本控制条件，对所述噪声图像进行去噪处理，得到所述虚拟模特图像，包括：

20、将所述形象文本特征信息、所述背景文本特征信息、所述噪声图像、所述服饰区域控制信息、所述服饰边缘控制信息和所述姿势控制信息输入所述反向生成模块，以使所述反向生成模块以所述服饰区域控制信息、所述服饰边缘控制信息和所述姿势控制信息为图像控制条件，以所述形象文本特征信息与所述背景文本特征信息为文本控制条件，进行噪声预测处理，得到目标噪声；

21、根据所述目标噪声，对所述噪声图像进行去噪处理，得到当前去噪轮次对应的还原图像，并将所述还原图像作为下一去噪轮次对应的噪声图像；

22、迭代执行噪声预测处理和去噪处理的过程，直至得到所述虚拟模特图像。

23、可选的，所述服饰蒙版图采用下述方式确定：

24、将所述初始人台模特图像输入语义分割模型，进行像素级的语义分割处理，得到所述初始人台模特图像中每个像素点的语义分割类别信息；

25、根据所述每个像素点的语义分割类别信息，从所述初始人台模特图像中确定多个目标像素点，所述多个目标像素点中每个目标像素点的语义分割类别信息为服饰；

26、根据所述多个目标像素点，生成所述服饰蒙版图。

27、可选的，所述边缘检测图采用下述方式确定：

28、生成所述初始人台模特图像对应的初始灰度图像；

29、对所述初始灰度图像进行高斯滤波处理，得到初始平滑图像；

30、基于边缘检测算子，计算得到所述初始平滑图像中每一个像素点的梯度幅值；

31、根据预设上限阈值、预设下限阈值和所述每一个像素点的梯度幅值，确定所述初始平滑图像中的至少一个边缘像素点；

32、将所述至少一个边缘像素点进行连接处理，得到所述边缘检测图。

33、可选的，所述深度图采用下述方式确定：

34、将所述初始人台模特图像输入深度检测模型，进行像素级的深度分析处理，得到所述初始人台模特图像中每一个像素点的深度值；

35、根据所述每一个像素点的深度值，生成所述深度图；所述深度图为深度图。

36、可选的，所述模特形象指示信息包括目标人物形象的第一形象指示信息或群体人物形象的第二形象指示信息中的至少一种；

37、所述背景指示信息包括背景地点信息、背景风格信息或背景光线信息中的至少一种。

38、可选的，所述背景指示信息采用下述方式获取：

39、对所述初始人台模特图像或所述模特形象提示信息进行语义分析处理，得到与所述初始人台模特图像或所述模特形象提示信息匹配的背景指示信息。

40、可选的，所述方法还包括：

41、对所述虚拟模特图像进行图像重采样处理，得到第一目标虚拟模特图像；

42、和/或，对所述虚拟模特图像进行图像边缘优化处理，得到第二目标虚拟模特图像。

43、根据本公开实施例的第二方面，提供一种图像处理装置，包括：

44、获取模块，被配置为执行获取初始人台模特图像、模特形象指示信息和背景指示信息；

45、预处理模块，被配置为执行确定所述初始人台模特图像对应的服饰蒙版图、所述初始人台模特图像对应的边缘检测图和所述初始人台模特图像对应的深度图；所述服饰蒙版图指示服饰区域信息，所述边缘检测图指示服饰边缘信息，所述深度图指示人台模特的姿势信息；

46、图像可控编辑处理模块，被配置为执行将所述初始人台模特图像、所述模特形象指示信息、所述背景指示信息、所述服饰蒙版图、所述边缘检测图和所述深度图输入多条件可控扩散模型，以使所述多条件可控扩散模型以所述服饰蒙版图、所述边缘检测图和所述深度图为图像控制条件，以所述模特形象指示信息和所述背景指示信息为文本控制条件，对所述初始人台模特图像进行图像可控编辑处理，得到虚拟模特图像，所述虚拟模特图像中虚拟模特的模特形象与所述模特形象指示信息对应，所述虚拟模特图像的图像背景与所述背景指示信息对应，所述虚拟模特图像与所述初始人台模特图像包含相同的服饰信息。

47、可选的，所述多条件可控扩散模型包括文本编码模块、前向扩散模块和反向生成模块，所述图像可控编辑处理模块包括：

48、文本编码单元，被配置为执行将所述模特形象指示信息输入所述文本编码模块，进行文本编码处理，得到形象文本特征信息；将所述背景指示信息输入所述文本编码模块，进行文本编码处理，得到背景文本特征信息；

49、加噪单元，被配置为执行将所述初始人台模特图像输入所述前向扩散模块，进行加噪处理，得到噪声图像；

50、控制信息确定单元，被配置为执行基于所述模特形象指示信息、所述背景指示信息和所述服饰蒙版图，确定服饰区域控制信息；基于所述模特形象指示信息、所述背景指示信息和所述边缘检测图，确定服饰边缘控制信息；基于所述模特形象指示信息、所述背景指示信息和所述深度图，确定姿势控制信息；

51、去噪单元，被配置为执行将所述形象文本特征信息、所述背景文本特征信息、所述噪声图像、所述服饰区域控制信息、所述服饰边缘控制信息和所述姿势控制信息输入所述反向生成模块，以使所述反向生成模块以所述服饰区域控制信息、所述服饰边缘控制信息和所述姿势控制信息为图像控制条件，以所述形象文本特征信息与所述背景文本特征信息为文本控制条件，对所述噪声图像进行去噪处理，得到所述虚拟模特图像。

52、可选的，所述多条件可控扩散模型还包括第一条件网络模块、第二条件网络模块和第三条件网络模块，所述控制信息确定单元包括：

53、特征提取子单元，被配置为执行对所述服饰蒙版图、所述边缘检测图、所述深度图分别进行特征提取处理，得到所述服饰蒙版图对应的服饰蒙版特征图、所述边缘检测图对应的边缘检测特征图和所述深度图对应的深度特征图；

54、服饰区域控制信息确定子单元，被配置为执行将所述模特形象指示信息对应的所述形象文本特征信息、所述背景指示信息对应的所述背景文本特征信息和所述服饰蒙版特征图输入所述第一条件网络模块，进行特征编码处理，得到所述服饰区域控制信息；

55、服饰边缘控制信息确定子单元，被配置为执行将所述形象文本特征信息、所述背景文本特征信息和所述边缘检测特征图输入所述第二条件网络模块，进行特征编码处理，得到所述服饰边缘控制信息；

56、姿势控制信息确定子单元，被配置为执行将所述形象文本特征信息、所述背景文本特征信息和所述深度特征图输入所述第三条件网络模块，进行特征编码处理，得到所述姿势控制信息。

57、可选的，所述去噪单元包括：

58、噪声预测子单元，被配置为执行将所述形象文本特征信息、所述背景文本特征信息、所述噪声图像、所述服饰区域控制信息、所述服饰边缘控制信息和所述姿势控制信息输入所述反向生成模块，以使所述反向生成模块以所述服饰区域控制信息、所述服饰边缘控制信息和所述姿势控制信息为图像控制条件，以所述形象文本特征信息与所述背景文本特征信息为文本控制条件，进行噪声预测处理，得到目标噪声；

59、噪声去除子单元，被配置为执行根据所述目标噪声，对所述噪声图像进行去噪处理，得到当前去噪轮次对应的还原图像，并将所述还原图像作为下一去噪轮次对应的噪声图像；

60、迭代子单元，被配置为执行迭代执行噪声预测处理和去噪处理的过程，直至得到所述虚拟模特图像。

61、可选的，所述预处理模块包括：

62、语义分割单元，被配置为执行将所述初始人台模特图像输入语义分割模型，进行像素级的语义分割处理，得到所述初始人台模特图像中每个像素点的语义分割类别信息；

63、第一像素筛选单元，被配置为执行根据所述每个像素点的语义分割类别信息，从所述初始人台模特图像中确定多个目标像素点，所述多个目标像素点中每个目标像素点的语义分割类别信息为服饰；

64、第一生成单元，被配置为执行根据所述多个目标像素点，生成所述服饰蒙版图。

65、可选的，所述预处理模块包括：

66、灰度化单元，被配置为执行生成所述初始人台模特图像对应的初始灰度图像；

67、滤波单元，被配置为执行对所述初始灰度图像进行高斯滤波处理，得到初始平滑图像；

68、梯度计算单元，被配置为执行基于边缘检测算子，计算得到所述初始平滑图像中每一个像素点的梯度幅值；

69、第二像素筛选单元，被配置为执行根据预设上限阈值、预设下限阈值和所述每一个像素点的梯度幅值，确定所述初始平滑图像中的至少一个边缘像素点；

70、第二生成单元，被配置为执行将所述至少一个边缘像素点进行连接处理，得到所述边缘检测图。

71、可选的，所述预处理模块包括：

72、深度分析单元，被配置为执行将所述初始人台模特图像输入深度检测模型，进行像素级的深度分析处理，得到所述初始人台模特图像中每一个像素点的深度值；

73、第三生成单元，被配置为执行根据所述每一个像素点的深度值，生成所述深度图。

74、可选的，所述模特形象指示信息包括目标人物形象的第一形象指示信息或群体人物形象的第二形象指示信息；

75、所述背景指示信息包括背景地点信息、背景风格信息或背景光线信息。

76、可选的，所述获取模块包括：

77、背景指示信息获取单元，被配置为执行对所述初始人台模特图像或所述模特形象提示信息进行语义分析处理，得到与所述初始人台模特图像或所述模特形象提示信息匹配的背景指示信息。

78、可选的，所述模特形象指示信息包括目标人物形象的第一形象指示信息或群体人物形象的第二形象指示信息中的至少一种；

79、所述背景指示信息包括背景地点信息、背景风格信息或背景光线信息中的至少一种。

80、可选的，所述装置还包括：

81、重采样单元，被配置为执行对所述虚拟模特图像进行图像重采样处理，得到第一目标虚拟模特图像；

82、边缘优化单元，被配置为执行或对所述虚拟模特图像进行图像边缘优化处理，得到第二目标虚拟模特图像。

83、根据本公开实施例的第三方面，提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现本公开实施例第一方面中任一项所述的图像处理方法。

84、根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如本公开实施例第一方面中任一项所述的图像处理方法。

85、根据本公开实施例的第五方面，提供一种计算机程序产品，包括计算机指令，所述计算机指令被处理器执行时实现如本公开实施例第一方面中任一项所述的图像处理方法。

86、本公开的实施例提供的技术方案至少带来以下有益效果：

87、在本公开的实施例提供的技术方案中，获取初始人台模特图像、模特形象指示信息和背景指示信息，其中模特形象指示信息和背景指示信息是作为图像生成过程中的文本控制条件；确定初始人台模特图像对应的服饰蒙版图、初始人台模特图像对应的边缘检测图和初始人台模特图像对应的深度图，服饰蒙版图指示服饰区域信息，边缘检测图指示服饰边缘信息，深度图指示人台模特的姿势信息；服饰蒙版图、边缘检测图图和深度图是作为图像生成过程中的图像控制条件；将初始人台模特图像、模特形象指示信息、背景指示信息、服饰蒙版图、边缘检测图和深度图输入多条件可控扩散模型中，以使多条件可控扩散模型以服饰蒙版图、边缘检测图和深度图为图像控制条件，以模特形象指示信息和背景指示信息为文本控制条件，对初始人台模特图像进行图像可控编辑处理，得到虚拟模特图像，虚拟模特图像与初始人台模特图像包含相同的服饰信息，虚拟模特图像中的虚拟模特满足模特形象指示信息的要求，虚拟模特所处的图像背景满足背景指示信息的要求，同时在三类特征图的控制下，所生成的虚拟模特图像中新生成的部分与保留自初始人台模特图像中的部分之间连接得更加自然，虚拟模特的姿态与初始人台模特图像中人台模特所穿着的服饰更加契合，图像中服饰的边缘更加高精、逼真。通过本公开的实施例提供的技术方案，可以在保持服饰不变的前提下，生成姿态更加契合的虚拟模特，实现了模特形象、背景的多样化功能和个性化功能，便捷了用户对图像的处理，可以在服饰商品展示领域批量使用。

88、应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

技术特征：

1.一种图像处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述多条件可控扩散模型包括文本编码模块、前向扩散模块和反向生成模块，所述将所述初始人台模特图像、所述模特形象指示信息、所述背景指示信息、所述服饰蒙版图、所述边缘检测图和所述深度图输入多条件可控扩散模型，以使所述多条件可控扩散模型以所述服饰蒙版图、所述边缘检测图和所述深度图为图像控制条件，以所述模特形象指示信息和所述背景指示信息为文本控制条件，对所述初始人台模特图像进行图像可控编辑处理，得到虚拟模特图像，包括：

3.根据权利要求2所述的方法，其特征在于，所述多条件可控扩散模型还包括第一条件网络模块、第二条件网络模块和第三条件网络模块，所述基于所述模特形象指示信息、所述背景指示信息和所述服饰蒙版图，确定服饰区域控制信息；基于所述模特形象指示信息、所述背景指示信息和所述边缘检测图，确定服饰边缘控制信息；基于所述模特形象指示信息、所述背景指示信息和所述深度图，确定姿势控制信息，包括：

4.根据权利要求2所述的方法，其特征在于，所述将所述形象文本特征信息、所述背景文本特征信息、所述噪声图像、所述服饰区域控制信息、所述服饰边缘控制信息和所述姿势控制信息输入所述反向生成模块，以使所述反向生成模块以所述服饰区域控制信息、所述服饰边缘控制信息和所述姿势控制信息为图像控制条件，以所述形象文本特征信息与所述背景文本特征信息为文本控制条件，对所述噪声图像进行去噪处理，得到所述虚拟模特图像，包括：

5.根据权利要求1所述的方法，其特征在于，所述服饰蒙版图采用下述方式确定：

6.根据权利要求1所述的方法，其特征在于，所述边缘检测图采用下述方式确定：

7.根据权利要求1所述的方法，其特征在于，所述模特形象指示信息包括目标人物形象的第一形象指示信息或群体人物形象的第二形象指示信息中的至少一种；

8.根据权利要求1所述的方法，其特征在于，所述背景指示信息采用下述方式获取：

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

10.一种图像处理装置，其特征在于，所述装置包括：

11.一种电子设备，其特征在于，包括：

12.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至9中任一项所述的图像处理方法。

13.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机指令，所述计算机指令被处理器执行以实现如权利要求1至9中任一项所述的图像处理方法。

技术总结
本公开关于图像处理方法、装置、电子设备及存储介质，涉及计算机技术领域，方法包括：获取初始人台模特图像、模特形象指示信息和背景指示信息；确定初始人台模特图像对应的服饰蒙版图、初始人台模特图像对应的边缘检测图和初始人台模特图像对应的深度图；将初始人台模特图像、模特形象指示信息、背景指示信息、服饰蒙版图、边缘检测图和深度图输入多条件可控扩散模型，以使多条件可控扩散模型以服饰蒙版图、边缘检测图和深度图为图像控制条件，以模特形象指示信息和背景指示信息为文本控制条件，对初始人台模特图像进行图像可控编辑处理，得到虚拟模特图像。利用本公开实施例提供的技术方案可以多方面提升虚拟模特图像的质量。

技术研发人员：吴俊强,王博瀚,李岩,高婷婷
受保护的技术使用者：北京达佳互联信息技术有限公司
技术研发日：
技术公布日：2024/5/29

转载请注明原文地址:https://win.8miu.com/read-1146832.html

专利

最新回复(0)