目标视听数据生成方法、装置、电子设备和可读介质

专利检索2026-06-11 3

本公开属于计算机视觉及深度学习，尤其涉及目标视听数据生成方法、装置、电子设备和可读介质。

背景技术：

1、视听数据融合了视觉与听觉两种感官体验，如何生成用户感兴趣的视听数据成为了视听内容制作领域的核心挑战和关键研究方向。随着计算机视觉和深度学习技术的进步，人工智能在视听内容制作上开始发挥重要的作用。目前，在生成目标视听数据时，通常采用的方式为：首先，将已有的视听片段对应的视频数据直接输入视频内容生成模型，由视频内容生成模型对所有视频图像区域进行识别以及根据识别到的用户关注的感兴趣元素的位置和图像空间结构生成与下一视听片段对应的目标视频数据。其中，下一视听片段可以是能够与已有视听片段实现连贯且动态播放的视听片段。然后，对上述目标视频数据进行配音处理，得到下一音频数据。最后，将上述目标视频数据和上述下一音频数据确定为目标视听数据。

2、然而，当采用上述方式生成目标视听数据时，经常存在如下技术问题：

3、第一，在视听片段对应的每个视频帧中，能够得到用户关注的视听内容通常占据少量图像区域，若将视频数据直接输入视频内容生成模型，则难以从视频图像中快速识别到用户关注的视听内容，以用于生成用户感兴趣的目标视听数据，从而，导致难以及时生成用户感兴趣的目标视听数据；

4、第二，尽管可以通过注视点预测模型预先对视听片段进行用户关注区域的预测，然而由于注视点预测模型的性能通常取决于所采用的训练集，且在多模态环境中通常难以收集到大量真实的人眼注视点数据作为与视听环境相关的模型训练数据，使得注视点预测模型准确度不足，即使可以采用已有的配备了真实注视点数据的少量视听序列作为模型训练数据，但注视点预测模型的训练数据仍较为缺乏，从而，导致注视点预测结果准确度较低。

5、该背景技术部分中所公开的以上信息仅用于增强对本发明构思的背景的理解，并因此，其可包含并不形成本国的本领域普通技术人员已知的现有技术的信息。

技术实现思路

1、本公开的内容部分用于以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。

2、本公开的一些实施例提出了目标视听数据生成方法、装置、电子设备和可读介质，来解决以上背景技术部分提到的技术问题中的一项或多项。

3、第一方面，本公开的一些实施例提供了一种目标视听数据生成方法，该方法包括：获取当前音视数据序列和视听注视点定位数据集，其中，上述当前音视数据序列为待用于生成下一视听片段的当前视听片段的音视数据序列，上述当前音视数据序列中的每个当前音视数据包括视频帧数据和音频数据，上述视听注视点定位数据集中的每个视听注视点定位数据包括标签数据和视听数据；基于上述视听注视点定位数据集，生成注视点类激活图集；基于上述视听注视点定位数据集和上述注视点类激活图集，对初始多模态注视点预测模型进行训练，以及将训练完成后的初始多模态注视点预测模型确定为多模态注视点预测模型；确定上述当前音视数据序列对应的音视时短期特征序列和音视时长期特征序列；将上述音视时短期特征序列和上述音视时长期特征序列输入上述多模态注视点预测模型，得到与上述当前视听片段对应的目标注视点区域图像；将上述当前音视数据序列和上述目标注视点区域图像输入预先训练完成的视听内容生成模型，得到下一视频帧数据序列和下一音频数据序列，其中，上述视听内容生成模型是对初始视听内容生成模型进行训练得到的，上述初始视听内容生成模型包括预处理层、视频编码器、视频解码器、音频编码器、音频解码器和变换网络层；基于上述下一视频帧数据序列和上述下一音频数据序列，生成目标视听数据，其中，上述目标视听数据为上述下一视听片段的视听数据。

4、第二方面，本公开的一些实施例提供了一种目标视听数据生成装置，装置包括：获取单元，被配置成获取当前音视数据序列和视听注视点定位数据集，其中，上述当前音视数据序列为待用于生成下一视听片段的当前视听片段的音视数据序列，上述当前音视数据序列中的每个当前音视数据包括视频帧数据和音频数据，上述视听注视点定位数据集中的每个视听注视点定位数据包括标签数据和视听数据；第一生成单元，被配置成基于上述视听注视点定位数据集，生成注视点类激活图集；训练单元，被配置成基于上述视听注视点定位数据集和上述注视点类激活图集，对初始多模态注视点预测模型进行训练，以及将训练完成后的初始多模态注视点预测模型确定为多模态注视点预测模型；确定单元，被配置成确定上述当前音视数据序列对应的音视时短期特征序列和音视时长期特征序列；第一输入单元，被配置成将上述音视时短期特征序列和上述音视时长期特征序列输入上述多模态注视点预测模型，得到与上述当前视听片段对应的目标注视点区域图像；第二输入单元，被配置成将上述当前音视数据序列和上述目标注视点区域图像输入预先训练完成的视听内容生成模型，得到下一视频帧数据序列和下一音频数据序列，其中，上述视听内容生成模型是对初始视听内容生成模型进行训练得到的，上述初始视听内容生成模型包括预处理层、视频编码器、视频解码器、音频编码器、音频解码器和变换网络层；第二生成单元，被配置成基于上述下一视频帧数据序列和上述下一音频数据序列，生成目标视听数据，其中，上述目标视听数据为上述下一视听片段的视听数据。

5、第三方面，本公开的一些实施例提供了一种电子设备，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现上述第一方面任一实现方式所描述的方法。

6、第四方面，本公开的一些实施例提供了一种计算机可读介质，其上存储有计算机程序，其中，计算机程序被处理器执行时实现上述第一方面任一实现方式所描述的方法。

7、本公开的上述各个实施例具有如下有益效果：通过本公开的一些实施例的目标视听数据生成方法，可以及时生成用户感兴趣的目标视听数据。具体来说，造成难以及时生成用户感兴趣的目标视听数据的原因在于：在视听片段对应的每个视频帧中，能够得到用户关注的视听内容通常占据少量图像区域，若将视频数据直接输入视频内容生成模型，则难以从视频图像中快速识别到用户关注的视听内容，以用于生成用户感兴趣的目标视听数据。基于此，本公开的一些实施例的目标视听数据生成方法，首先，获取当前音视数据序列和视听注视点定位数据集。其中，上述当前音视数据序列为待用于生成下一视听片段的当前视听片段的音视数据序列，上述当前音视数据序列中的每个当前音视数据包括视频帧数据和音频数据，上述视听注视点定位数据集中的每个视听注视点定位数据包括标签数据和视听数据。由此，可以得到当前视听片段的视听数据和用于生成多模态注视点预测模型的训练数据的带有标签信息的视听数据，便于后续预测得到当前视听片段中用户感兴趣的视听内容所在的关注区域，便于指导生成下一视听片段对应的目标视听数据。其次，基于上述视听注视点定位数据集，生成注视点类激活图集，以及基于上述视听注视点定位数据集和上述注视点类激活图集，对初始多模态注视点预测模型进行训练，以及将训练完成后的初始多模态注视点预测模型确定为多模态注视点预测模型。由此，可以得到较为准确的多模态注视点预测模型。然后，确定上述当前音视数据序列对应的音视时短期特征序列和音视时长期特征序列。由此，可以得到输入多模态注视点预测模型的当前视听片段的特征数据。之后，将上述音视时短期特征序列和上述音视时长期特征序列输入上述多模态注视点预测模型，得到与上述当前视听片段对应的目标注视点区域图像。由此，可以得到当前视听片段中用户感兴趣的视听数据所在的关注区域。接着，将上述当前音视数据序列和上述目标注视点区域图像输入预先训练完成的视听内容生成模型，得到下一视频帧数据序列和下一音频数据序列。由此，可以得到下一视听片段对应的视频片段和音频片段。最后，基于上述下一视频帧数据序列和上述下一音频数据序列，生成目标视听数据。其中，上述目标视听数据为上述下一视听片段的视听数据。因此，本公开的一些实施例的目标视听数据生成方法，在根据已有视听片段生成下一视听片段之前，通过已有视听片段的音视频特征预测得到用户的关注区域，可以便于后续视频内容生成模型及时地识别到较为准确的用户关注的视听内容和视觉注意力分布情况，并可以根据视觉注意力分布情况对下一视听片段中包括用户关注内容的视频图像进行较好地内容排布，从而，可以及时生成用户感兴趣的目标视听数据。进而，提高用户的视听体验。

技术特征：

1.一种目标视听数据生成方法，包括：

2.根据权利要求1所述的方法，其中，在所述将所述当前音视数据序列和所述目标注视点区域图像输入预先训练完成的视听内容生成模型之前，所述方法还包括：

3.根据权利要求1所述的方法，其中，所述基于所述视听注视点定位数据集，生成注视点类激活图集，包括：

4.根据权利要求3所述的方法，其中，所述基于所述空间特征序列、所述音视融合特征信息序列和所述时空融合特征信息序列，生成多粒度特征信息集，包括：

5.根据权利要求4所述的方法，其中，所述将所述多粒度特征信息集输入预先训练完成的注视点类激活图生成网络，得到注视点类激活图，包括：

6.根据权利要求5所述的方法，其中，空间子网、音视子网和时空子网均包括语义迭代子网络，语义迭代子网络是通过至少一个特征融合步骤对各个节点对应的特征进行融合的图卷积网络；以及所述语义迭代子网络通过以下步骤，执行所述至少一个特征融合步骤中的每个特征融合步骤：

7.根据权利要求6所述的方法，其中，所述将所述第一更新特征输入精细化处理层，得到与所述目标节点对应的下一阶段初始张量特征，包括：

8.根据权利要求7所述的方法，其中，所述初始多模态注视点预测模型包括初始第一注视点预测子网和初始第二注视点预测子网；以及所述基于所述视听注视点定位数据集和所述注视点类激活图集，对初始多模态注视点预测模型进行训练，包括：

9.根据权利要求8所述的方法，其中，所述初始第一注视点预测子网包括语义迭代子网络；以及所述基于所得到的各个第一训练样本，对所述初始多模态注视点预测模型包括的初始第一注视点预测子网进行训练，包括：

10.根据权利要求2所述的方法，其中，所述方法还包括：

技术总结
本公开提出了一种目标视听数据生成方法、装置、电子设备和可读介质。包括：获取当前音视数据序列和视听注视点定位数据集；基于视听注视点定位数据集，生成注视点类激活图集；基于视听注视点定位数据集和注视点类激活图集，对初始多模态注视点预测模型进行训练，以及确定为多模态注视点预测模型；确定音视时短期特征序列和音视时长期特征序列；将音视时短期特征序列和音视时长期特征序列输入多模态注视点预测模型，得到目标注视点区域图像；将当前音视数据序列和目标注视点区域图像输入视听内容生成模型，得到下一视频帧数据序列和下一音频数据序列；生成目标视听数据。该实施方式可以及时生成用户感兴趣的目标视听数据，提高用户的视听体验。

技术研发人员：郝爱民,王国涛,李帅,高阳,赵沁平
受保护的技术使用者：北京航空航天大学
技术研发日：
技术公布日：2024/5/29

转载请注明原文地址:https://win.8miu.com/read-1163696.html

专利

最新回复(0)