基于美学引导的文生图模型优化方法、装置、设备及介质

专利检索2025-11-29 22

本技术涉及计算机领域，尤其涉及一种基于美学引导的文生图模型优化方法、装置、设备及介质。

背景技术：

1、文本到图像合成（tis）是一种先进的且广泛应用的生成式人工智能技术，旨在基于文本输入生成逼真的图像。这些现有模型中的图像生成质量需要依赖于复杂精细的基于关键字的文本提示设计。在现实场景中，缺乏专业知识的个人在选择合适的关键词来组成详细提示时经常遇到挑战，需要通过反复的生成尝试来主观评估所选关键词的影响和质量，导致时间和计算资源的显著损失。

2、现有技术中，常见的做法是通过人工评估来分析不同关键词的个体效果，然后根据用户输入的文本匹配语义接近的关键词。

3、然而，现有技术中对关键词的评估只考虑了关键词的个体效果，因此具有局限性，导致评估效果不好的问题。

技术实现思路

1、本技术实施例提供一种基于美学引导的文生图模型优化方法、装置、设备及介质，用以解决现有技术中评估效果不好的问题。

2、第一方面，本技术实施例提供一种基于美学引导的文生图模型优化方法，包括：

3、获取提示文本词汇的提示文本特征、以及目标关键词的关键词特征，其中，提示文本词汇为用于描述目标图像的主题信息的名词词汇，目标关键词为用于限定提示文本词汇的关键词；

4、将提示文本特征和关键词特征输入至待训练模型中的语义融合模块进行语义融合处理，得到语义融合特征；

5、将语义融合特征输入至待训练模型中的多维分数预测模块进行对齐处理，得到维度预测结果；

6、根据维度预测结果和比对评估结果，对待训练模型进行调整，得到目标模型，其中，比对评估结果根据目标图像和提示文本词汇确定，目标图像根据关键字提示对生成，关键字提示对根据提示文本词汇和目标关键词得到。

7、在一种可能的实施方式中，获取提示文本词汇的提示文本特征、以及目标关键词的关键词特征，包括：

8、确定初始提示文本；

9、对初始提示文本进行摘要提取处理，确定初始提示文本中的摘要提示内容、以及摘要提示内容中的提示文本词汇；

10、对初始提示文本进行关键词提取处理，得到初始关键词，其中，初始关键词为初始提示文本中关键词出现频率满足预设频率要求的关键词；

11、根据初始关键词的语义相似度，对初始关键词进行分类处理，得到关键词分类结果；

12、根据关键词分类结果中关键词的出现频率，确定目标关键词；

13、对提示文本词汇进行编码处理，得到提示文本词汇的提示文本特征；以及对目标关键词进行编码处理，得到目标关键词的关键词特征。

14、在一种可能的实施方式中，根据初始关键词的语义相似度，对初始关键词进行分类处理，得到关键词分类结果，包括：

15、对初始关键词进行映射处理，得到初始关键词的嵌入向量；

16、根据初始关键词的嵌入向量，对初始关键词进行聚类处理，得到表征关键词分类结果的关键词分类簇。

17、在一种可能的实施方式中，将提示文本特征和关键词特征输入至待训练模型中的语义融合模块进行语义融合处理，得到语义融合特征，包括：

18、将关键词特征输入至第一多层感知器单元，得到第一输出结果；

19、将提示文本特征分别输入至第二多层感知器单元和第三多层感知器单元，得到第二输出结果和第三输出结果；

20、根据关键词特征、第一输出结果、第二输出结果、第三输出结果和第四多层感知器单元，得到语义融合特征，其中，语义融合特征根据关键词特征和第四输出结果得到，第四输出结果根据第一输出结果、第二输出结果、第三输出结果和第四多层感知器单元得到，第一多层感知器单元、第二多层感知器单元、第三多层感知器单元和第四多层感知器单元的学习参数不同。

21、在一种可能的实施方式中，根据关键词特征、第一输出结果、第二输出结果、第三输出结果和第四多层感知器单元，得到语义融合特征，包括：

22、对第一输出结果和第二输出结果进行融合处理，得到第一融合结果；

23、对第一融合结果和第三输出结果进行融合处理，得到第二融合结果；

24、将第二融合结果输入至第四多层感知器单元，得到第四输出结果；

25、对关键词特征和第四输出结果进行语义融合处理，得到语义融合特征。

26、在一种可能的实施方式中，根据关键词特征、第一输出结果、第二输出结果、第三输出结果和第四多层感知器单元，得到语义融合特征，包括：

27、根据关键词特征、第一输出结果、第二输出结果、第三输出结果和第四多层感知器单元，得到初始语义融合特征；

28、将初始语义融合特征作为关键词特征，重新执行将提示文本特征和关键词特征输入至待训练模型中的语义融合模块进行语义融合处理，得到语义融合特征的步骤，直至将提示文本特征和关键词特征输入至待训练模型中的语义融合模块的次数满足预设次数后，得到全局初始语义融合特征；

29、根据全局初始语义融合特征，得到语义融合特征。

30、在一种可能的实施方式中，将语义融合特征输入至待训练模型中的多维分数预测模块进行对齐处理，得到维度预测结果，包括：

31、确定多维分数预测模块中的维度预测单元，维度预测单元包括图片美学预测单元、偏好预测单元、图文一致性预测单元中的至少一种单元；

32、根据多维分数预测模块中的维度预测单元，对语义融合特征进行对齐处理，得到维度预测结果。

33、在一种可能的实施方式中，在根据维度预测结果和比对评估结果，对待训练模型进行调整，得到目标模型之前，方法还包括：

34、根据提示文本词汇和目标关键词，得到关键字提示对；

35、将关键字提示对输入至转换模型，得到目标图像，转换模型为用于将文本内容转化为图像的模型；

36、将目标图像和提示文本词汇输入至评估模型中的维度评估单元，得到比对评估结果，其中，评估模型中维度评估单元输出的比对评估结果的类型与多维分数预测模块中维度预测单元输出的维度预测结果的类型对应。

37、在一种可能的实施方式中，根据维度预测结果和比对评估结果，对待训练模型进行调整，得到目标模型，包括：

38、根据多维分数预测模块中维度预测单元的类型，确定损失函数、以及损失函数的损失函数系数；

39、根据损失函数、损失函数系数、维度预测结果和比对评估结果，得到损失函数值；

40、根据损失函数值，对待训练模型进行调整，得到目标模型。

41、第二方面，本技术提供一种关键词评估方法，包括：

42、获取用户输入的描述文本；

43、将描述文本输入关键词预测评估模型，得到关键词预测评估模型输出的预测评估结果，预测评估结果为与预设关键词对应的预测评估结果，预设关键词为关键词预测评估模型中的关键词，关键词预测评估模型为本技术提供的目标模型；

44、根据预测评估结果，确定预设关键词中的推荐关键词。

45、第三方面，本技术提供一种基于美学引导的文生图模型优化装置，包括：

46、获取模块，用于获取提示文本词汇的提示文本特征、以及目标关键词的关键词特征，其中，提示文本词汇为用于描述目标图像的主题信息的名词词汇，目标关键词为用于限定提示文本词汇的关键词；

47、融合模块，用于将提示文本特征和关键词特征输入至待训练模型中的语义融合模块进行语义融合处理，得到语义融合特征；

48、预测模块，用于将语义融合特征输入至待训练模型中的多维分数预测模块进行对齐处理，得到维度预测结果；

49、调整模块，用于根据维度预测结果和比对评估结果，对待训练模型进行调整，得到目标模型，其中，比对评估结果根据目标图像和提示文本词汇确定，目标图像根据关键字提示对生成，关键字提示对根据提示文本词汇和目标关键词得到。

50、第四方面，本技术提供一种关键词评估装置，包括：

51、输入模块，用于获取用户输入的描述文本；

52、评估模块，用于将描述文本输入关键词预测评估模型，得到关键词预测评估模型输出的预测评估结果，预测评估结果为与预设关键词对应的预测评估结果，预设关键词为关键词预测评估模型中的关键词，关键词预测评估模型为本技术提供的目标模型；

53、确定模块，用于根据预测评估结果，确定预设关键词中的推荐关键词。

54、第五方面，本技术实施例提供一种电子设备，包括：存储器，处理器；

55、存储器存储计算机执行指令；

56、处理器执行存储器存储的计算机执行指令，使得处理器执行本技术提供的方法。

57、第六方面，本技术实施例提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，计算机执行指令被处理器执行时用于实现本技术提供的方法。

58、第七方面，本技术实施例提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现本技术提供的方法。

59、本技术实施例提供的基于美学引导的文生图模型优化方法、装置、设备及介质，通过构造目标关键词和不包括关键词的提示文本词汇，降低了提示文本词汇对目标关键词的影响，便于提高模型训练效果，通过目标关键词和提示文本词汇得到的语义融合特征，再对语义融合特征进行预测，得到包含提示文本词汇和目标关键词生成的图像效果的预测结果，然后再通过真实的比对评估结果对待训练模型进行调整，使得到的目标模型可以预测关键词和提示文本组合后的图像效果的得分，从而根据预测的得分对关键词进行排序，确定推荐关键词，避免用户不断尝试不同关键词的组合效果，提高基于关键词的文本生成图像的使用效果。

技术特征：

1.一种基于美学引导的文生图模型优化方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取提示文本词汇的提示文本特征、以及目标关键词的关键词特征，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述初始关键词的语义相似度，对所述初始关键词进行分类处理，得到关键词分类结果，包括：

4.根据权利要求1所述的方法，其特征在于，所述将所述提示文本特征和所述关键词特征输入至待训练模型中的语义融合模块进行语义融合处理，得到语义融合特征，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述关键词特征、所述第一输出结果、所述第二输出结果、所述第三输出结果和第四多层感知器单元，得到语义融合特征，包括：

6.根据权利要求4所述的方法，其特征在于，所述根据所述关键词特征、所述第一输出结果、所述第二输出结果、所述第三输出结果和第四多层感知器单元，得到语义融合特征，包括：

7.根据权利要求1所述的方法，其特征在于，所述将所述语义融合特征输入至所述待训练模型中的多维分数预测模块进行对齐处理，得到维度预测结果，包括：

8.根据权利要求1所述的方法，其特征在于，在所述根据所述维度预测结果和比对评估结果，对所述待训练模型进行调整，得到目标模型之前，所述方法还包括：

9.根据权利要求1所述的方法，其特征在于，所述根据所述维度预测结果和比对评估结果，对所述待训练模型进行调整，得到目标模型，包括：

10.一种基于美学引导的文生图模型优化装置，其特征在于，包括：

技术总结
本申请提供一种基于美学引导的文生图模型优化方法、装置、设备及介质。包括：获取提示文本词汇的提示文本特征、以及目标关键词的关键词特征，将提示文本特征和关键词特征输入至待训练模型中的语义融合模块进行语义融合处理，得到语义融合特征，将语义融合特征输入至待训练模型中的多维分数预测模块进行对齐处理，得到维度预测结果，根据维度预测结果和比对评估结果，对待训练模型进行调整，得到目标模型。该方法用以提高基于关键词的文本生成图像的使用效果。

技术研发人员：明安龙,王梦超,何帅,马华东,豆子飞
受保护的技术使用者：北京邮电大学
技术研发日：
技术公布日：2024/5/29

转载请注明原文地址:https://win.8miu.com/read-1158969.html

专利

最新回复(0)