文本到图像的生成方法、装置、电子设备及介质与流程

专利检索2025-05-02 14

本申请涉及文本图像生成，尤其涉及一种文本到图像的生成方法、装置、电子设备及介质。

背景技术：

1、文本到图像生成技术作为当今时代最令人瞩目的人工智能创新之一，不仅在技术领域引起了广泛关注，在社会价值层面显示出其重要性。文本到图像生成技术通过高级机器学习和计算机视觉算法，将文字描述转换为相应的图像，展现了人工智能在理解和创造视觉内容方面的巨大潜力。在实际应用方面，文本到图像生成技术在许多行业中都有广泛的应用前景。

2、尽管文本到图像生成技术具有广泛的应用前景和重要的社会价值，但它也面临着一些挑战和局限性。最主要的问题之一是数据集的缺乏。由于高质量的图像生成需要大量的训练数据，而这些数据往往难以获得，因此技术发展受到了限制。此外，当前的技术在图像细节处理方面还不够成熟，有时无法准确地反映出文字描述中的细微差别，这限制了生成图像的质量和实用性。因此，亟需解决现有文字到图像生成技术中数据集不足和图像细节处理不够精细的问题。

技术实现思路

1、为了解决上述技术问题，本申请实施例提供了一种文本到图像的生成方法、装置、电子设备及介质。

2、第一方面，本申请实施例提供了一种文本到图像的生成方法，所述方法包括：

3、对文本描述进行文本编码，得到文本嵌入特征表示；

4、对所述文本嵌入特征表示进行批量归一化处理，得到归一化文本特征表示；

5、根据所述归一化文本特征表示进行随机采样，得到目标变量；

6、在目标函数增加针对生成器的正则化机制，通过所述正则化机制衡量所述目标变量的采样分布和所述文本嵌入特征表示的语义空间分布的相似度；

7、根据所述相似度向所述生成器输出潜在语义空间；

8、通过所述生成器基于所述潜在语义空间生成对应的图像。

9、在一实施方式中，对所述归一化文本特征表示进行计算平均值μ(φt)和对角协方差矩阵σ(φt)；

10、对高斯分布进行随机采样,得到所述目标变量。

11、在一实施方式中，所述正则化机制包括kl散度计算机制，所述通过所述正则化机制衡量所述目标变量的采样分布和所述文本嵌入特征表示的语义空间分布的相似度，包括：

12、采用kl散度计算机制计算所述目标变量的采样分布和所述文本嵌入特征表示的相似度。

13、在一实施方式中，所述目标函数包括损失函数，在目标函数增加针对生成器的正则化机制，通过所述正则化机制衡量所述目标变量的采样分布和所述文本嵌入特征表示的语义空间分布的相似度，包括：

14、在所述损失函数增加针对所述生成器的kl散度计算机制，通过所述kl散度计算机制计算所述目标变量的采样分布和所述文本嵌入特征表示的语义空间分布的kl散度，根据所述kl散度确定所述相似度。

15、在一实施方式中，所述kl散度越大，对应所述相似度越大。

16、在一实施方式中，所述通过所述kl散度计算机制计算所述目标变量的采样分布和所述文本嵌入特征表示的语义空间分布的kl散度，包括：

17、采用以下kl计算函数计算所述kl散度；

18、

19、其中，为所述目标变量的采样分布,为所述文本嵌入特征表示的语义空间分布。

20、在一实施方式中，所述根据所述相似度向所述生成器输出潜在语义空间，包括：

21、若所述相似度大于预设相似度阈值，则通过所述目标函数向所述生成器输入所述潜在语义空间。

22、第二方面，本申请实施例提供了一种文本到图像的生成装置，所述装置包括：

23、所述根据所述相似度向所述生成器输出潜在语义空间，包括：

24、若所述相似度大于预设相似度阈值，则通过所述目标函数向所述生成器输入所述潜在语义空间。

25、第三方面，本申请实施例提供了一种电子设备，包括存储器以及处理器，所述存储器用于存储计算机程序，所述计算机程序在所述处理器运行时执行第一方面提供的文本到图像的生成方法。

26、第四方面，本申请实施例提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序在处理器上运行时执行第一方面提供的文本到图像的生成方法。

27、上述本申请提供的文本到图像的生成方法、装置、电子设备及介质，对文本描述进行文本编码，得到文本嵌入特征表示；对所述文本嵌入特征表示进行批量归一化处理，得到归一化文本特征表示；根据所述归一化文本特征表示进行随机采样，得到目标变量；在目标函数增加针对生成器的正则化机制，通过所述正则化机制衡量所述目标变量的采样分布和所述文本嵌入特征表示的语义空间分布的相似度；根据所述相似度向所述生成器输出潜在语义空间；通过所述生成器基于所述潜在语义空间生成对应的图像。这样，在给定少量的文本图像数据对的情况下，能提供更多的增强数据，提高生成模型的表达能力。在文本-图像对数据集确定的情况下，提供更多的数据集，提高图片生成效果。

技术特征：

1.一种文本到图像的生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述归一化文本特征表示进行随机采样得到目标变量，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述正则化机制包括kl散度计算机制，所述通过所述正则化机制衡量所述目标变量的采样分布和所述文本嵌入特征表示的语义空间分布的相似度，包括：

4.根据权利要求3所述的方法，其特征在于，所述目标函数包括损失函数，在目标函数增加针对生成器的正则化机制，通过所述正则化机制衡量所述目标变量的采样分布和所述文本嵌入特征表示的语义空间分布的相似度，包括：

5.根据权利要求4所述的方法，其特征在于，所述kl散度越大，对应所述相似度越大。

6.根据权利要求4所述的方法，其特征在于，所述通过所述kl散度计算机制计算所述目标变量的采样分布和所述文本嵌入特征表示的语义空间分布的kl散度，包括：

7.根据权利要求1所述的方法，其特征在于，所述根据所述相似度向所述生成器输出潜在语义空间，包括：

8.一种文本到图像的生成装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括存储器以及处理器，所述存储器存储有计算机程序，所述计算机程序在所述处理器运行时执行权利要求1至7中任一项所述的文本到图像的生成方法。

10.一种计算机可读存储介质，其特征在于，其存储有计算机程序，所述计算机程序在处理器上运行时执行权利要求1至7中任一项所述的文本到图像的生成方法。

技术总结
本申请实施例提供一种文本到图像的生成方法、装置、电子设备及介质，属于文本图像生成技术领域。该方法包括：对文本描述进行文本编码，得到文本嵌入特征表示；对文本嵌入特征表示进行批量归一化处理，得到归一化文本特征表示；根据归一化文本特征表示进行随机采样，得到目标变量；在目标函数增加针对生成器的正则化机制，通过正则化机制衡量目标变量的采样分布和文本嵌入特征表示的语义空间分布的相似度；根据相似度向生成器输出潜在语义空间；通过生成器基于潜在语义空间生成对应的图像。这样，在给定少量的文本图像数据对的情况下，能提供更多的增强数据，提高生成模型的表达能力。

技术研发人员：余凯
受保护的技术使用者：深圳市优必选科技股份有限公司
技术研发日：
技术公布日：2024/5/29

转载请注明原文地址:https://win.8miu.com/read-1153303.html

专利

最新回复(0)