一种目标物体与应用场景立体合成的方法、系统、设备及介质与流程

专利检索2025-12-23  8


所属的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“平台”。图10是本发明实施例中的一种目标物体与应用场景立体合成的设备的结构示意图。下面参照图10来描述根据本发明的这种实施方式的电子设备600。图10显示的电子设备600仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。如图10所示,电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于:至少一个处理单元610、至少一个存储单元620、连接不同平台组件(包括存储单元620和处理单元610)的总线630、显示单元640等。其中,存储单元存储有程序代码,程序代码可以被处理单元610执行,使得处理单元610执行本说明书上述一种目标物体与应用场景立体合成的方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,处理单元610可以执行如图1中所示的步骤。存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(ram)6201和/或高速缓存存储单元6202,还可以进一步包括只读存储单元(rom)6203。存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204,这样的程序模块6205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备600交互的设备通信,和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白,尽管图10中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储平台等。本发明实施例中还提供一种计算机可读存储介质,用于存储程序,程序被执行时实现的一种目标物体与应用场景立体合成的方法的步骤。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在终端设备上运行时,程序代码用于使终端设备执行本说明书上述一种目标物体与应用场景立体合成的方法部分中描述的根据本发明各种示例性实施方式的步骤。如上所示,本实施例中通过对确定获得目标物体的三维特征,并在直接场景中识别出置物面,通过固定节点与置物面的匹配,实现目标物体在应用场景中的准确定位,使得用户可以获得更加真实的观看感受,大大提高融合的真实性,具有更好的视频展示效果。图11是本发明实施例中的计算机可读存储介质的结构示意图。参考图11所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品800,其可以采用便携式紧凑盘只读存储器(cd-rom)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、rf等等,或者上述的任意合适的组合。可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如java、c++等,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。本实施例中通过对确定获得目标物体的三维特征,并在直接场景中识别出置物面,通过固定节点与置物面的匹配,实现目标物体在应用场景中的准确定位,使得用户可以获得更加真实的观看感受,大大提高融合的真实性,具有更好的视频展示效果。本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。


背景技术:

1、直播是一种实时互动的视频传播方式,用户可以通过网络直播平台观看主播的实时视频内容,并与主播进行互动。直播的内容形式丰富多样,包括但不限于游戏直播、教育直播、娱乐直播、电商直播等。

2、在直播中,主播可以通过摄像头、麦克风等设备展示自己的实时画面和声音,与观众进行实时交流。观众可以通过弹幕、评论、点赞等方式与主播互动,表达自己的看法和感受。

3、直播具有实时性、互动性和社交性等特点,使得观众能够更直接、更深入地了解主播和内容,也更容易产生共鸣和互动。因此,直播已成为了一种受欢迎的互联网娱乐方式和营销手段。

4、然而直播这种技术手段由于空间等限制,无法在直播间内展示过大的设备,当然也存在部分设备展示不方便的问题。

5、目前现有技术中还缺乏能够将目标物体高精度地在直播间展示的技术,以大大拓展直播间内可以展示的物品各类。

6、以上背景技术内容的公开仅用于辅助理解本发明的发明构思及技术方案,其并不必然属于本专利申请的现有技术,在没有明确的证据表明上述内容在本专利申请的申请日已经公开的情况下,上述背景技术不应当用于评价本技术的新颖性和创造性。


技术实现思路

1、针对现有技术中的缺陷,本发明的目的是提供一种目标物体与应用场景立体合成的方法、系统、设备及介质。

2、根据本发明提供的一种目标物体与应用场景立体合成的方法,包括如下步骤:

3、步骤s1:利用深度学习网络,对相机获取到的多视角rgbd图像做模型训练,得到对应设备的神经网络模型;

4、步骤s2:利用3d相机采集目标物体的多视角rgbd图像和所述神经网络模型,进行三维重建;获得目标物体的多个节点;其中,所述三维特征包括形状和尺寸,所述节点包括活动节点和固定节点;

5、步骤s3:利用深度相机获得应用场景的rgb图像和深度图像,并在所述rgb图像中利用距离参数确定出前景置物范围;其中,所述距离参数是预设的值;

6、步骤s4:将所述目标物体置于所述rgb图像中,确定所述目标物体的视角与固定节点,并根据所述目标物体在所述rgb图像中的位置确定置物面,根据距离所述置物面的最近的三个所述固定节点确定基准面,使所述基准面与所述置物面重合,得到修正后视角与所述修正后视角对应的所述目标物体的二维图像,并进行融合。

7、可选地,所述的一种目标物体与应用场景立体合成的方法,其特征在于,还包括:

8、步骤s5:如果所述目标物体的深度值小于同一像素点上应用场景上的深度值,判定该部分为遮挡,则以所述活动节点为轴转动所述目标物体的部分,以使所述目标物体上被遮挡的部分最少。

9、可选地,所述的一种目标物体与应用场景立体合成的方法,其特征在于,在调整所述目标物体的活动部分时,利用深度学习算法获得的各类姿态,与所述应用场景配合,以使目标物体上被遮挡部分最少。

10、可选地,所述的一种目标物体与应用场景立体合成的方法,其特征在于,步骤s3包括:

11、步骤s31:利用深度相机获得应用场景的rgb图像和深度图像;

12、步骤s32:根据所述深度图像与距离参数的关系确定出第一范围;

13、步骤s33:对所述第一范围对应的rgb图像进行分割处理,获得多个置物面;

14、步骤s34:将多个所述置物面组成前景置物范围。

15、可选地,所述的一种目标物体与应用场景立体合成的方法,其特征在于,步骤s4包括:

16、步骤s41:将所述目标物体置于所述rgb图像中,得到所述目标物体的视角与固定节点;

17、步骤s42:根据所述目标物体在所述rgb图像中的位置确定置物面,根据距离所述置物面的最近的三个所述固定节点确定基准面;

18、步骤s43:调整所述目标物体的视角与位置,使所述基准面与所述置物面重合,并且所述目标物体的重心位于所述置物面上方。

19、可选地,所述的一种目标物体与应用场景立体合成的方法,其特征在于,还包括:

20、步骤s45:根据所述固定节点的深度值计算所述目标物体的深度值;

21、步骤s46:比较所述目标物体的深度值与所述rgb图像上对应像素点的深度值,得到深度值相同的边界线;

22、步骤s47:以所述边界线将所述目标物体在所述rgb图像上的区域划分为遮挡区和非遮挡区,将所述遮挡区置为所述rgb图像上的内容。

23、可选地,所述的一种目标物体与应用场景立体合成的方法,其特征在于,步骤s46包括:

24、步骤s461:比较所述目标物体的深度值与所述rgb图像上对应像素点的深度值,得到深度值相同的第一边界点,得到多条第一边界线;

25、步骤s462:如果两条所述第一边界线之间的距离值小于第一阈值,则将所述两条第一边界线取中间值进行合并得到第二边界线;

26、步骤s463:如果相邻的所述第一边界线或所述第二边界线的端点的距离小于第一阈值,则用直线将所述端点相连;

27、步骤s464:重复执行步骤s462和s463,直至没有新的合并或连接对象,确认最终的边界线。

28、根据本发明提供的一种目标物体与应用场景立体合成的系统,包括如下模块:

29、训练模块,用于利用深度学习网络,对相机获取到的多视角rgbd图像做模型训练,得到对应设备的神经网络模型;

30、获取模块,用于利用3d相机采集目标物体的多视角rgbd图像和所述神经网络模型,进行三维重建;获得目标物体的多个节点;其中,所述三维特征包括形状和尺寸,所述节点包括活动节点和固定节点;

31、前景模块,用于利用深度相机获得应用场景的rgb图像和深度图像,并在所述rgb图像中利用距离参数确定出前景置物范围;其中,所述距离参数是预设的值;

32、融入模块,用于将所述目标物体置于所述rgb图像中,确定所述目标物体的视角与固定节点,并根据所述目标物体在所述rgb图像中的位置确定置物面,根据距离所述置物面的最近的三个所述固定节点确定基准面,使所述基准面与所述置物面重合,得到修正后视角与所述修正后视角对应的所述目标物体的二维图像,并进行融合。

33、根据本发明提供的一种目标物体与应用场景立体合成的设备,包括:

34、处理器;

35、存储器,其中存储有所述处理器的可执行指令;

36、其中,所述处理器配置为经由执行所述可执行指令来执行所述的一种目标物体与应用场景立体合成的方法的步骤。

37、根据本发明提供的计算机可读存储介质,用于存储程序,所述程序被执行时实现所述的一种目标物体与应用场景立体合成的方法的步骤。

38、与现有技术相比,本发明具有如下的有益效果:

39、本发明中通过神经网络模型训练获取对应设备的神经网络模型,对于各类物体均有良好和适应性,从而具有更大的应用范围,对于各类目标物体均可以有效识别,大大提高了效率。

40、本发明获得目标物体的三维特征,从而可以使得目标物体的尺寸、深度值等更加准确,使得融合后的图像更加合理、真实。

41、本发明利用距离参数确定出前景置物范围,更加符合应用场景,使得目标物体始终处于用户可以直观观看的位置,使目标物体始终获得比较好的展示。

42、本发明根据rgb图像中的置物面与固定节点确定的基准面对目标物体进行微调,从而可以使得目标物体更好地融入应用场景中,使得目标物体更加真实地呈现,取得与视频间内具有目标物体相同的技术效果。


技术特征:

1.一种目标物体与应用场景立体合成的方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种目标物体与应用场景立体合成的方法,其特征在于,还包括:

3.根据权利要求2所述的一种目标物体与应用场景立体合成的方法,其特征在于,在调整所述目标物体的活动部分时,利用深度学习算法获得的各类姿态,与所述应用场景配合,以使目标物体上被遮挡部分最少。

4.根据权利要求1所述的一种目标物体与应用场景立体合成的方法,其特征在于,步骤s3包括:

5.根据权利要求1所述的一种目标物体与应用场景立体合成的方法,其特征在于,步骤s4包括:

6.根据权利要求5所述的一种目标物体与应用场景立体合成的方法,其特征在于,还包括:

7.根据权利要求6所述的一种目标物体与应用场景立体合成的方法,其特征在于,步骤s46包括:

8.一种目标物体与应用场景立体合成的系统,其特征在于,包括如下模块:

9.一种目标物体与应用场景立体合成的设备,其特征在于,包括:

10.一种计算机可读存储介质,用于存储程序,其特征在于,所述程序被执行时实现权利要求1至7任一项所述的一种目标物体与应用场景立体合成的方法的步骤。


技术总结
本发明提供了一种目标物体与应用场景立体合成的方法、系统、设备及介质,包括:S1:利用深度学习网络,对相机获取到的多视角RGBD图像做模型训练,得到对应设备的神经网络模型;步骤S2:利用3D相机采集目标物体的多视角RGBD图像和所述神经网络模型,进行三维重建;获得目标物体的多个节点;步骤S3:利用深度相机获得应用场景的RGB图像和深度图像,并在所述RGB图像中利用距离参数确定出前景置物范围;步骤S4:将所述目标物体置于所述RGB图像中,确定所述目标物体的视角与固定节点,并根据所述目标物体在所述RGB图像中的位置确定置物面,根据距离所述置物面的最近的三个所述固定节点确定基准面,使所述基准面与所述置物面重合。

技术研发人员:邵小飞,朱力,吕方璐,汪博
受保护的技术使用者:深圳市光鉴科技有限公司
技术研发日:
技术公布日:2024/5/29
转载请注明原文地址:https://win.8miu.com/read-1159417.html

最新回复(0)