视频画面显示方法、装置、设备及存储介质与流程

专利检索2025-11-02 20

本申请涉及视频显示，尤其涉及一种视频画面显示方法、装置、设备及存储介质。

背景技术：

1、在远程会议中，通常对会议中的某个人进行裁切，并将裁切出来的图像传送到会议显示设备进行显示，然而，由于裁切后的图像可能不清晰，因此，将裁切后的图像直接传送到会议显示设备进行显示会造成显示不清晰的问题。

技术实现思路

1、针对上述技术问题，本申请的目的在于提供一种视频画面显示方法、装置、设备及存储介质，旨在解决将裁切后的图像直接传送到会议显示设备进行显示会造成显示不清晰的问题。

2、第一方面，本申请实施例提供一种视频画面显示方法，包括：

3、对定焦摄像头采集到的全景视频图像进行人物检测，得到人物分布信息；

4、对麦克风阵列采集到的音频进行声源检测，得到声源分布信息；

5、根据所述人物分布信息和所述声源分布信息确定所述全景视频图像中的最优区域图像；

6、根据当前帧的最优区域图像的尺寸和上一帧的最优区域图像的尺寸计算上一帧的最优区域图像缩放到当前帧的最优区域图像的缩放倍率；

7、根据所述当前帧的最优区域图像在其对应的全景视频图像中的位置以及上一帧的最优区域图像在其对应的全景视频图像中的位置控制云台运动，以带动云台上的变焦摄像头运动；

8、在所述云台运动过程中，根据所述缩放倍率调整所述变焦摄像头的缩放倍率，并将所述变焦摄像头采集到的视频画面到显示设备进行显示。

9、进一步的，所述根据所述人物分布信息和所述声源分布信息确定所述全景视频图像中的最优区域图像，包括：

10、若所述人物分布信息指示检测到人物且所述声源分布信息指示无人发声，则根据所述人物分布信息定位得到目标人物；

11、基于构图线优化原则和所述目标人物，确定所述全景视频图像中的最优区域图像。

12、进一步的，所述根据所述人物分布信息和所述声源分布信息确定所述全景视频图像中的最优区域图像，包括：

13、若所述人物分布信息指示检测到人物且所述声源分布信息指示有人发声，则根据所述人物分布信息和所述声源分布信息定位得到说话的目标人物；

14、基于构图线优化原则和所述目标人物，确定所述全景视频图像中的最优区域图像。

15、进一步的，所述根据所述人物分布信息和所述声源分布信息确定所述全景视频图像中的最优区域图像，包括：

16、若所述人物分布信息指示检测到人物且所述声源分布信息指示有人发声，则判断所述声源分布信息是否在预设时间段内发生变化；

17、若所述声源分布信息在预设时间段内未发生变化，则根据所述人物分布信息和所述声源分布信息定位得到说话的目标人物；

18、基于构图线优化原则和所述目标人物，确定所述全景视频图像中的最优区域图像；

19、若所述声源分布信息在预设时间段内发生变化，则根据所述人物分布信息定位得到目标人物；

20、基于构图线优化原则和所述目标人物，确定所述全景视频图像中的最优区域图像。

21、进一步的，所述构图线优化原则为使目标人物的人脸位置与构图线的偏离值小于预设阈值。

22、进一步的，所述根据所述人物分布信息和所述声源分布信息确定所述全景视频图像中的最优区域图像，包括：

23、若所述人物分布信息指示没有检测到人物且所述声源分布信息指示没有人发声，则将所述全景视频图像作为所述最优区域图像。

24、进一步的，所述根据所述人物分布信息和所述声源分布信息确定所述全景视频图像中的最优区域图像，包括：

25、若所述人物分布信息指示没有检测到人物且所述声源分布信息指示有人发声，则将所述全景视频图像作为所述最优区域图像。

26、第二方面，本申请实施例提供一种视频画面显示装置，包括：

27、人物检测模块，用于对定焦摄像头采集到的全景视频图像进行人物检测，得到人物分布信息；

28、声源检测模块，用于对麦克风阵列采集到的音频进行声源检测，得到声源分布信息；

29、最优区域图像确定模块，用于根据所述人物分布信息和所述声源分布信息确定所述全景视频图像中的最优区域图像；

30、计算模块，用于根据当前帧的最优区域图像的尺寸和上一帧的最优区域图像的尺寸计算上一帧的最优区域图像缩放到当前帧的最优区域图像的缩放倍率；

31、控制模块，用于根据所述当前帧的最优区域图像在其对应的全景视频图像中的位置以及上一帧的最优区域图像在其对应的全景视频图像中的位置控制云台运动，以带动云台上的变焦摄像头运动；

32、输出模块，用于在所述云台运动过程中，根据所述缩放倍率调整所述变焦摄像头的缩放倍率，并将所述变焦摄像头采集到的视频画面到显示设备进行显示。

33、第三方面，本申请实施例提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

34、第四方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

35、本申请实施例提供一种视频画面显示方法，包括：对定焦摄像头采集到的全景视频图像进行人物检测，得到人物分布信息；对麦克风阵列采集到的音频进行声源检测，得到声源分布信息；根据所述人物分布信息和所述声源分布信息确定所述全景视频图像中的最优区域图像；根据当前帧的最优区域图像的尺寸和上一帧的最优区域图像的尺寸计算上一帧的最优区域图像缩放到当前帧的最优区域图像的缩放倍率；根据所述当前帧的最优区域图像在其对应的全景视频图像中的位置以及上一帧的最优区域图像在其对应的全景视频图像中的位置控制云台运动，以带动云台上的变焦摄像头运动，并根据所述缩放倍率调整所述变焦摄像头的缩放倍率；在所述云台停止运动后，输出缩放倍率调整后所述变焦摄像头采集到的视频画面到显示设备进行显示。由于本申请实施例根据人物分布信息和声源分布信息确定所述全景视频图像中的最优区域图像，因此，当全景视频图像中存在多个人物或多个说话人时，可以对多个说话人进行定位，即最优区域图像可以包括多人，也即变焦摄像头采集到的视频画面可以包括多人。此外，本申请实施例通过根据当前帧的最优区域图像的尺寸和上一帧的最优区域图像的尺寸计算上一帧的最优区域图像缩放到当前帧的最优区域图像的缩放倍率；根据所述当前帧的最优区域图像在其对应的全景视频图像中的位置以及上一帧的最优区域图像在其对应的全景视频图像中的位置控制云台运动，以带动云台上的变焦摄像头运动，并根据所述缩放倍率调整所述变焦摄像头的缩放倍率，如此，变焦摄像头能够采集到更加清晰的目标人物图像，从而显示设备显示的图像更加清晰。

技术特征：

1.一种视频画面显示方法，其特征在于，包括：

2.根据权利要求1所述的视频画面显示方法，其特征在于，所述根据所述人物分布信息和所述声源分布信息确定所述全景视频图像中的最优区域图像，包括：

3.根据权利要求1所述的视频画面显示方法，其特征在于，所述根据所述人物分布信息和所述声源分布信息确定所述全景视频图像中的最优区域图像，包括：

4.根据权利要求1所述的视频画面显示方法，其特征在于，所述根据所述人物分布信息和所述声源分布信息确定所述全景视频图像中的最优区域图像，包括：

5.根据权利要求2-4任一项所述的视频画面显示方法，其特征在于，所述构图线优化原则为使目标人物的人脸位置与构图线的偏离值小于预设阈值。

6.根据权利要求1所述的视频画面显示方法，其特征在于，所述根据所述人物分布信息和所述声源分布信息确定所述全景视频图像中的最优区域图像，包括：

7.根据权利要求1所述的视频画面显示方法，其特征在于，所述根据所述人物分布信息和所述声源分布信息确定所述全景视频图像中的最优区域图像，包括：

8.一种视频画面显示装置，其特征在于，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

技术总结
本申请涉及视频显示技术领域，提供一种视频画面显示方法、装置、设备及存储介质，方法包括：对定焦摄像头采集到的全景视频图像进行人物检测，得到人物分布信息；对麦克风阵列采集到的音频进行声源检测，得到声源分布信息；根据人物分布信息和声源分布信息确定全景视频图像中的最优区域图像；根据前后两帧最优区域图像的尺寸计算缩放倍率；根据当前帧的最优区域图像和上一帧的最优区域图像在全景视频图像中的位置控制云台运动，以带动云台上的变焦摄像头运动；在云台运动过程中，根据缩放倍率调整所述变焦摄像头的缩放倍率，并将变焦摄像头采集到的视频画面到显示设备进行显示。本申请显示的图像更加清晰。

技术研发人员：李伟哲,王凯,钟伟杰,潘定龙
受保护的技术使用者：广州视源电子科技股份有限公司
技术研发日：
技术公布日：2024/5/29

转载请注明原文地址:https://win.8miu.com/read-1158231.html

专利

最新回复(0)