一种视频生成方法及电子设备与流程

专利检索2025-02-28 39

本技术涉及终端，尤其涉及一种视频生成方法及电子设备。

背景技术：

1、图像和视频等视觉数据的生成是机器学习和计算机视觉领域的重要研究问题。随着人工智能内容生成的发展，视频内容创作者已经可以利用视频生成模型生成视频内容。但是，目前的视频生成模型所生成的视频内容的质量不高，如，视频的可控性差，保真度差，高分辨率出现重叠伪影等，用户体验较差。

技术实现思路

1、本技术提供一种视频生成方法及电子设备，能够生成更高质量的视频，提高用户使用体验。

2、第一方面，本技术实施例提供一种视频生成方法，该方法包括以下步骤：获取第一素材，第一素材文本概念，文本概念包括用户预设的第一个性化文本概念；基于第一素材，确定待生成的第一视频的第一语义特征和第一细节特征；基于第一语义特征和第一细节特征，利用动态生成网络，生成第一视频。

3、在本技术实施例提供的方法中，用户会预先设置个性化文本概念，电子设备通过获取用户从预设的个性化文本概念中选取第一个性化文本概念来生成特定的视频，可以有效地提高视频的可控性，保真性，从而提高视频的画质，提高用户的体验感。

4、在一种实现方式中，基于第一素材，确定第一语义特征，包括：从个性化数据库中获取第一个性化文本概念对应的第一指代特征；其中，个性化数据库包括多个个性化文本概念对应的指代特征；利用第一编码器，对第一素材中的文本概念进行编码，得到第二语义特征；利用第一指代特征替换第二语义特征中的第一部分，得到第一语义特征。利用第一语义特征去生成视频，会使视频与第一个性化文本概念的相关性更高，从而提高视频的保真度与可控性，提高用户的体验感。

5、在一种实现方式中，第一素材还包括目标图像，第一个性化文本概念为用户对目标图像预设的文本概念；基于第一素材，确定待生成的第一视频的第一语义特征和第一细节特征，包括：基于第一个性化文本概念和目标图像，确定第一语义特征和第一细节特征。通过第一个性化文本概念和目标图像来生成特定的视频，可以有效地提高视频的可控性，保真性，从而提高视频的画质，提高用户的体验感。

6、在一种实现方式中，基于第一素材，确定第一语义特征，包括：利用第一编码器，对第一素材中的文本概念进行编码，得到第二语义特征；利用第二编码器，对目标图像进行编码，得到第二指代特征；利用第二指代特征替换第二语义特征中的第一部分，得到第一语义特征。通过替换后的第一语义特征生成的视频，可以生成用户指定的视频，提高视频的可控性与准确性，满足用户的体验。

7、在一种实现方式中，基于第一素材，确定第一细节特征，包括：从个性化数据库中获取第一个性化文本概念对应的第二细节特征，作为第一细节特征。其中，个性化数据库包括多个个性化文本概念对应的细节特征。通过从离线的个性化数据库中获取第一个性化文本概念对应的第二细节特征，作为第一细节特征，可以提高后续视频生成的保真性，满足用户的体验。

8、在一种实现方式中，基于第一个性化文本概念和目标图像，确定第一细节特征，包括：据库中提取第一个性化文本概念对应的第二细节特征；利用个性化提取网络，从目标图像中提取第三细节特征；将第二细节特征和第三细节特征进行融合，得到第一细节特征。通过将来源不同的第二细节特征和第三细节特征进行融合，得到第一细节特征，可以进一步的提高后续视频生成的保真性，满足用户的体验。

9、在一种实现方式中，动态生成网络包括第一网络和第二网络，第二网络的空间核大小不同于第一网络，所述基于第一语义特征和第一细节特征，利用动态生成网络，生成第一视频，包括：基于第一语义特征和第一细节特征，利用第一网络，生成第二视频；基于第二视频，利用第二网络，生成第一视频；其中，第一视频的分辨率大于第二视频的分辨率。其中，通过分第一网络和第二网络来生成视频，可以有效地避免生成的高分辨率视频出现重叠伪影的问题，提高用户的体验。

10、在一种实现方式中，获取第一素材之前，还包括：获取样本图像并对样本图像添加个性化文本概念；对样本图像进行主体识别，得到样本图像主体；利用个性化提取网络，提取样本图像主体的细节特征；其中，细节特征与个性化文本概念对应；利用第二编码器，对样本图像主体进行编码，得到样本图像的指代特征；指代特征与个性化文本概念对应；将细节特征和指代特征存储到个性化数据库中。预先构建离线个性化数据库的好处在于：电子设备可以直接从离线个性化数据库中查找用于第一视频生成所需要的第一细节特征和第一指代特征，提高视频的画质。

11、在一种实现方式中，获取第一素材之前，还包括：获取训练集，训练集包括输入样本和输出样本；其中，输入样本包括多个图像语料、多个所述图像语料对应的文本语料，输出样本包括输出样本图像；利用第一编码器，对文本语料进行编码，得到文本语料对应的第一训练语义特征；利用第二编码，对图像语料进行编码，得到图像语料对应的训练指代特征；利用训练指代特征替换第一训练语义特征的第一部分，得到第二训练语义特征；以图像语料作为个性化提取网络的输入，以第二训练语义特征和个性化提取网络的输出作为生成网络的输入，以输出样本图像作为生成网络的输出，训练个性化提取网络。通过训练好的个性化神经网络进行特征提取，得到待生成视频的细节特征，有效地提高后续视频生成的保真性，满足用户的体验。

12、在一种实现方式中，还包括：获取第二素材，第二素材包括第一个性化文本概念和非目标图像，非目标图像与第一个性化文本概念不相关；利用第一编码器，对第一个性化文本概念进行编码，得到待生成的第三视频的第二语义特征；利用特征提取网络，从非目标图像中提取第三视频的第四细节特征；基于第二语义特征和第四细节特征，利用动态生成网络，生成第三视频。利用动态生成网络生成视频，可以有效地避免生成的高分辨率视频出现重叠伪影的问题，提高用户体验感。

13、在一种实现方式中，还包括：获取第三素材，第二素材包括非性化概念；利用第一编码器，对非个性化文本概念进行编码，得到待生成的第三视频的第三语义特征；利用特征提取网络，从非个性化文本概念中提取第三视频的第五细节特征；基于第三语义特征和第五细节特征，利用动态生成网络，生成第三视频。利用动态生成网络生成视频，可以有效地避免生成的高分辨率视频出现重叠伪影的问题，提高用户体验感。

14、在一种实现方式中，还包括：获取第四素材，第四素材包括非个性化文本概念和非目标图像；利用第一编码器，对非个性化文本概念进行编码，得到待生成的第三视频的第三语义特征；利用特征提取网络，从非目标图像中提取第三视频的第四细节特征；基于第三语义特征和第四细节特征，利用动态生成网络，生成第三视频。利用动态生成网络生成视频，可以有效地避免生成的高分辨率视频出现重叠伪影的问题，提高用户体验感。

15、在一种实现方式中，获取第一素材包括显示第一界面；其中，第一界面包括至少一个第一控件，每个第一控件对应一个个性化文本概念；响应于用户对至少一个第一控件中的第一目标控件的操作，获取第一目标控件对应的第一个性化文本概念。通过预设第一个性化文本概念获取特定的视频，可以有效地提高视频的可控性，保真性，提高视频的画质，提高用户的体验感。

16、在一种实现方式中，第一界面还包括第二控件，第二控件包括文本框；响应于用户对文本框的输入操作，获取与用户输入内容对应的第一个性化文本概念。通过预设第一个性化文本概念获取特定的视频，可以有效地提高视频的可控性，保真性，提高视频的画质，提高用户的体验感。

17、第二方面，本技术实施例提供一种视频生成装置，包括：处理器和存储器，存储器存储有程序指令，当程序指令被处理器执行时，使得数据传输装置执行如上述第一方面及任一实现方式中的视频生成方法。

18、第三方面，本技术实施例提供一种电子设备，该电子设备包括存储器、一个或多个处理器；存储器与处理器耦合；其中，存储器中存储有计算机程序代码，计算机程序代码包括计算机指令，当计算机指令被处理器执行时，使得电子设备执行如第一方面及其任一种可能的设计方式提供的视频生成方法。

19、第四方面，本技术实施例提供一种计算机可读存储介质，该计算机可读存储介质包括计算机指令，当计算机指令在电子设备上运行时，使得电子设备执行如第一方面及其任一种可能的设计方式提供的视频生成方法。

20、第五方面，本技术实施例提供一种计算机程序产品，当计算机程序产品在电子设备上运行时，使得电子设备执行如上述第一方面及任一实现方式中的视频生成方法。

21、可以理解地，上述各个方面所提供的电子设备、计算机可读存储介质以及计算机程序产品均应用于上文所提供的对应方法，因此，其所能达到的有益效果可参考上文所提供的对应方法中的有益效果，此处不再赘述。

技术特征：

1.一种视频生成方法，其特征在于，包括：

2.根据权利要求1所述的视频生成方法，其特征在于，基于所述第一素材，确定所述第一语义特征，包括：

3.根据权利要求1所述的视频生成方法，其特征在于，所述第一素材还包括第一目标图像，所述第一个性化文本概念为用户对第一目标图像预设的文本概念；

4.根据权利要求3所述的视频生成方法，其特征在于，基于所述第一素材，确定所述第一语义特征，包括：

5.根据权利要求2所述的视频生成方法，其特征在于，基于所述第一素材，确定所述第一细节特征，包括：

6.根据权利要求3所述的视频生成方法，其特征在于，基于所述第一个性化文本概念和所述目标图像，确定所述第一细节特征，包括：

7.根据权利要求1所述的视频生成方法，其特征在于，所述动态生成网络包括第一网络和第二网络，所述第二网络的空间核大小不同于所述第一网络，所述基于所述第一语义特征和所述第一细节特征，利用动态生成网络，生成所述第一视频，包括：

8.根据权利要求1所述的视频生成方法，其特征在于，获取第一素材之前，还包括：

9.根据权利要求1所述的视频生成方法，其特征在于，获取第一素材之前，还包括：

10.根据权利要求1所述的视频生成方法，其特征在于，还包括：

11.根据权利要求1所述的视频生成方法，其特征在于，还包括：

12.根据权利要求1所述的视频生成方法，其特征在于，还包括：

13.根据权利要求1所述的视频生成方法，其特征在于，所述获取第一素材包括：

14.根据权利要求13所述的视频生成方法，其特征在于，所述第一界面还包括第二控件，所述第二控件包括文本框；

15. 一种电子设备，其特征在于，所述电子设备包括：存储器和一个或多个处理器；所述存储器与所述处理器耦合；其中，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令；当所述计算机指令被所述处理器执行时，使得所述电子设备执行如权利要求 1-14 中任一项所述的方法。

16. 一种计算机可读存储介质，其特征在于，包括计算机指令；当所述计算机指令在电子设备上运行时，使得所述电子设备执行如权利要求 1-14 中任一项所述的方法。

技术总结
本申请实施例提供一种视频生成方法及电子设备，涉及终端技术领域。其中，该方法包括：获取第一素材，第一素材包括文本概念，文本概念包括用户预设的第一个性化文本概念；基于第一素材，确定待生成的第一视频的第一语义特征和第一细节特征；基于第一语义特征和第一细节特征，利用动态生成网络，生成第一视频。在本申请实施例中，由于第一素材包括第一个性化文本概念，因此，基于第一素材生成的视频的可控性好，保真度好，可以提高视频的画质，提高用户体验感。

技术研发人员：王龙
受保护的技术使用者：荣耀终端有限公司
技术研发日：
技术公布日：2024/5/29

转载请注明原文地址:https://win.8miu.com/read-1150466.html

专利

最新回复(0)