通过对象识别和特征提取进行的视频编解码的制作方法

专利检索2025-11-11 15

本申请涉及视频编解码，尤其涉及基于对象识别和特征提取的视频编解码。本申请还涉及基于上述视频编解码的图像合成。

背景技术：

1、视频压缩已经被用于传输视频数据。较高的压缩率有助于减少传输所需的资源，但会导致视频质量损失。对于人类观看的图像，图像质量损失会影响视频的美学因素(例如，好看与否)，并因此降低用户体验。然而，对于待由机器(例如，无人驾驶车辆)识别的图像，图像的上下文比视频的美学因素更为重要。面向机器的视频编解码(video coding formachines，vcm)的最新发展可见于iso/iec jtc 1/sc 29/wg 2n18“面向机器的视频编解码的用例和要求”。为了减少面向机器的视频数据的传输时间和传输资源的消耗，需要一种改进的系统和方法来有效地对面向机器的视频数据进行编码和解码。

技术实现思路

1、本公开提供了用于处理面向机器的视频数据的装置和方法。在一些实施例中，机器可以包括无人驾驶车辆、机器人、飞机和/或能够例如使用人工智能进行视频数据处理和分析的其他合适的设备或计算系统。更具体地，本公开提供了(i)一种用于基于视频中的识别对象和/或视频特征编码或压缩视频数据的发送器，以及(ii)一种用于解码或解压缩由上述发送器编码或压缩的视频数据的接收器。

2、当编码视频时，该发送器可以(i)识别该视频中的一个或多个对象(例如，交通标志、路标、徽标、表格、提供文本信息和/或数字信息的其他合适的区域/字段等)；(ii)提取与识别的对象关联的特征(例如，文本、数字、以及其对应的颜色、字体、大小、位置等)；(iii)监控和/或跟踪识别的对象，以确定或预测其移动方向和/或轨迹；(iv)处理与该视频的每一帧中识别的对象对应的图像(例如，使用代表色来填充识别的对象所占据的整个区域，以显著降低该区域的分辨率)；(v)编码(或压缩)具有处理后的图像的视频；以及(vi)通过网络(例如，在码流中)发送编码的(或压缩的)的视频和提取的特征。该发送器的实施例参考图3进行详细讨论。

3、本公开还提供了一种用于对编码的视频进行解码的接收器。在一些实施例中，该接收器可以(a)通过网络接收编码的视频；(b)基于识别的对象及其对应的特征对编码的视频进行解码；(c)生成具有识别的对象的解码视频。该发送器的实施例参考图4进行详细讨论。

4、本公开的一个方面提供了用于处理具有对象的视频的方法。该方法包括，例如，(1)识别该视频中的一个或多个对象；(2)提取与识别的对象关联的特征；(3)确定识别的对象的位置、移动方向和/或轨迹；(4)处理与该视频的每一帧中识别的对象对应的图像；(5)生成与提取的特征对应的描述符；(6)压缩生成的描述符；(7)编码具有处理后的图像的视频(例如，对处理后的图像和剩余的视频分别进行编码)；(8)发送编码的视频和压缩的描述符(例如，通过复用码流发送)。在一些实施例中，该方法还可以包括(9)通过网络接收编码的视频和压缩的描述符；(10)对压缩的描述符进行解压缩；以及(11)基于解压缩的描述符对编码的视频进行解码。该方法的实施例参考图5和图9进行详细讨论。在一些实施例中，对象可以包括标志、广告、方向/交通标志等。

5、在一些实施例中，所示方法可以通过一种有形的非暂时性计算机可读介质来实现，该介质上存储有处理器指令，当由一个或多个处理器执行时，该处理器指令使得该一个或多个处理器执行本文描述的方法的一个或多个方面/特征。

技术特征：

1.一种用于处理视频的发送器系统，包括：

2.根据权利要求1所述的系统，还包括：

3.根据权利要求1所述的系统，其中，所述一个或多个对象包括以下中的至少一个：交通标志、路标、信息表、公司/产品/机构徽标、或者提供文本信息和/或数字信息的区域或字段。

4.根据权利要求1所述的系统，其中，提取的所述一个或多个特征包括以下中的至少一个：与所述一个或多个对象关联的文本、数字、颜色、字体、大小、或者位置。

5.根据权利要求1所述的系统，其中，所述视频处理部件用于用空白替代所述视频的每一帧中的所述一个或多个对象。

6.根据权利要求1所述的系统，其中，所述视频处理部件用于用背景颜色替代所述视频的每一帧中的所述一个或多个对象。

7.根据权利要求1所述的系统，其中，所述视频处理部件用于用背景图像替代所述视频的每一帧中的所述一个或多个对象。

8.根据权利要求7所述的系统，其中，基于与所述一个或多个对象相邻的图像确定所述背景图像。

9.根据权利要求7所述的系统，其中，基于所述一个或多个对象周围的图像确定所述背景图像。

10.根据权利要求1所述的系统，其中，对象识别部件还用于监控所述一个或多个对象，以确定识别的所述一个或多个对象的移动方向。

11.一种用于处理视频的接收器系统，包括：

12.根据权利要求11所述的系统，还包括：

13.根据权利要求11所述的系统，其中，所述一个或多个对象包括以下中的至少一个：交通标志、路标、或者提供文本信息和/或数字信息的区域或字段。

14.根据权利要求11所述的系统，其中，所述提取的一个或多个特征包括以下中的至少一个：与所述一个或多个对象关联的文本、数字、颜色、字体、大小、或者位置。

15.根据权利要求11所述的系统，其中，所述对象重建部件用于通过将所述提取的一个或多个特征添加到所述一个或多个对象中来生成所述图像。

16.一种用于处理视频的方法，包括：

17.根据权利要求16所述的方法，还包括：

18.根据权利要求16所述的方法，其中，所述一个或多个对象包括以下中的至少一个：交通标志、路标、或者提供文本信息和/或数字信息的区域或字段。

19.根据权利要求16所述的方法，其中，提取的所述一个或多个特征包括以下中的至少一个：与所述一个或多个对象关联的文本、数字、颜色、字体、大小、或者位置。

20.根据权利要求16所述的方法，其中，处理与所述视频的每一帧中识别的所述对象对应的所述图像包括：

技术总结
提供了发送器和接收器以处理面向机器的视频。发送器用于(1)识别视频中的一个或多个对象并提取与该一个或多个对象关联的一个或多个特征；(2)基于该一个或多个对象处理视频的每一帧；以及(3)对处理后的视频进行编码。接收器用于(i)接收编码的视频并对其进行解码；以及(ii)基于提取的特征和解码的视频生成视频。

技术研发人员：马雷克·多曼斯基,托马斯·格拉耶克,亚当·格泽尔卡,斯拉沃米尔·麦考维亚克,斯拉沃米尔·罗泽克,奥尔盖尔德·斯坦基耶维奇,雅库布·斯坦考斯基
受保护的技术使用者：OPPO广东移动通信有限公司
技术研发日：
技术公布日：2024/5/29

转载请注明原文地址:https://win.8miu.com/read-1158639.html

专利

最新回复(0)