本发明涉及智能机器人,具体说是一种相似物体三维识别和位姿估计系统和方法。
背景技术:
1、当前面向刚体目标的三维识别及位姿估计方法可以主要分为基于传统特征描述符与基于深度学习的两大类方法。基于传统描述符的方法需要面向不同目标与应用场景根据实际情况进行描述符设计,过程繁琐且面向遮挡与噪声等情况鲁棒性表现较差。而基于学习的方法因其应用方便,在场景适应性方面有着极大潜力而在近年来得到广泛关注。
2、基于学习的方法往往通过在真实场景中,将待检测的目标物摆放至各种不同的位置与姿态,然后采集数据,并标注好对应的位姿真实值后对模型进行训练,直至模型收敛。而后在实际应用中,即可使用模型对目标物的位置与姿态进行预测。而这种基于学习的三维识别及位姿估计方法一方面需要对目标物体进行广泛的数据集收集与标注,所需要的时间以及人力成本极其昂贵,同时所训练的模型只对训练集中存在的目标有效,对于与训练目标物拥有相同几何结构,不同结构尺寸差异的同类物体而无能为力,应用范围受限制。
3、现有技术一种基于语言描述的类级别目标物6d位姿获取方法及存储介质(cn114399515a)可通过元学习模型实现对同类相似物体的位姿估计与跟踪。但是该方法在对输入的同类新物体进行位姿识别时,需要收集新物体的训练数据重新对网络进行微调训练,降低了方法使用的便捷性和效率。
技术实现思路
1、本发明目的是提供一种相似物体三维识别和位姿估计系统和方法,包括一个标准状态预测模型、对应的仿真训练数据生成方法、模型训练方法及使用方法。该方法旨在解决当前主流基于学习的位姿估计方法中数据收集标注费时耗力,且对相似目标物体无法通用的问题,在对新物体进行位姿跟踪时无需数据收集与网络训练的方法,提高了方法的使用便捷性与应用范围。所提出的方法基于仿真数据增强的方式进行训练,同时所提的方法对具有相似几何结构的同类目标物体均能适用。
2、本发明至少通过如下技术方案之一实现。
3、一种相似物体三维识别和位姿估计系统,包括相似物体三维识别和位姿估计模型,所述相似物体三维识别和位姿估计模型包括:
4、点云特征提取模块:包括若干级联的卷积层,以目标物体观测点云为输入,针对每一个点输出一个高维度的特征向量;
5、类别识别模块:包含若干级联卷积层和全连接层,对提取得到的逐点高维特征进行处理,实现对目标物的类别进行识别预测;
6、点云坐标预测模块:包括多个级联的卷积头和全连接层,对点云特征提取模块输出的点特征及类别识别模块产生的中间特征联合处理,实现对输入点云中的每个点进行标准典范空间状态坐标预测,最终得到目标物体在标准典范空间下的点云。
7、进一步地,所述的标准典范空间状态定义为:标准典范空间状态是对具有相同结构组成但各部分尺寸不一的物体的进行预定义的统一状态。
8、进一步地,点云坐标预测模块将标准典范空间划分为m*m*m的空间网格,针对输入点云中的每个点利用其对应的特征分别对x、y、z三个维度进行六十四分类,从而实现对每个点的标准典范空间坐标预测。
9、进一步地,所述点云特征提取模块包括:
10、点云采样分组单元:点云采样分组单元利用最远点采样方法,从输入的点云中选择一系列关键点,然后,将与这些关键点在指定半径距离内的所有点划分为不同的小组,从而实现对点云的采样和分组;
11、一维卷积层:对点云采样分组单元所划分的每个小组进行卷积操作,生成相应的特征点;
12、池化层:利用最大化值选择策略,对高维度特征点进行降维处理;
13、全连接层:将特征点进行全连接处理;
14、上采样插值层:对关键特征点进行上采样插值计算,得到更高密度的特征点。
15、进一步地,所述类别识别模块包括:
16、卷积层:由点云特征提取模块对目标点云中每点生成的特征进行进一步卷积操作;
17、全连接层:将卷积层输出的高维点特征向量进行全连接处理,并最终输出为一维特征向量。
18、进一步地,所述点云坐标预测模块结构包括:
19、三层全连接单元:包含连续三层全连接层,首先将类别识别模块输出的一维特征向量与模型中的点特征进行拼接处理,然后针对拼接得到的点特征进行全连接处理,最终输出一个六十四维向量,并以最大值所在标号作为三维坐标中其中一维的预测值。
20、实现所述的一种相似物体三维识别和位姿估计系统的方法,包括以下步骤:
21、收集模型训练数据收集:在虚拟仿真环境进行训练数据的收集,包括以下步骤:首先利用物体的网格模型作为标准典范模型,将该物体的不同几何结构部分分别进行独立的尺寸放缩,并将放缩后的几何结构部件进行组合构成新的物体示例网格模型;将新生成的示例网格模型加载至仿真环境中,使其以随机的位置及姿态于仿真桌面上方落至桌面上;
22、当物体落至桌面且停止运动时,利用虚拟相机收集场景rgbd数据,并将目标物的点云进行提取;记录当前状态下目标物的网格状态,利用网格模型中的顶点对应关系获得目标物点云在标准典范模型上的坐标真实值;该过程每执行一次即完成一帧数据的收集,循环执行该过程直到数据采集量达到目标要求;
23、模型预训练,包括将观测得到的目标点云数据输入至模型输入端,首先由点云特征提取模块对点云中的每点进行特征提取,将所有的点特征输入至类别识别模块中进行处理,得到类别层面的一维特征向量,对类别向量进行全连接处理并计算分类损失;将类别向量与点云的点特征向量进行拼接,并将拼接所得的点云特征输入至点云坐标预测模块,对点云中的每一个点进标准空间坐标预测,并与采集得到的标准空间坐标真实值进行计算预测损失,根据预测损失更新模型的策略参数,直至模型稳定收敛;
24、姿态计算策略:当模型对目标点云中的每个点均预测出其在标准空间下的坐标后,利用基于投票的策略计算目标物体的姿态,包括以下步骤:
25、步骤一、在目标点云中随机选取三个点记为p1、p2、p3,并在根据标准状态转换模型输出结果得到对应的标准空间坐标n1、n2、n3;
26、步骤二、利用三点坐标p1、p2、p3分别计算向量
27、步骤三:利用标准空间中的三点n1、n2、n3分别计算向量
28、步骤四、对向量与向量进行归一化处理,利用三对向量之间的一一对应关系计算空间旋转矩阵,并将其分解为分别围绕x、y、z轴三个方向的旋转角θ、λ、φ;重复步骤一至步骤四过程至指定次数n,并记录n对旋转角集合
29、分别对x、y、z三个轴的旋转角度进行离散统计,得到统计数最大的角度几位最优估计角度θoptim、λoptim、按估计的角度首先将目标点云与标准典范模型进行姿态角度对齐,然后分别在x、y、z轴三个方向对目标点云进行放缩,使其与标准典范模型在x、y、z轴尺度达到一致,相应的缩放因子记录为sx,sy,sz。
30、进一步地,预训练中所采用的预测损失为:
31、lconst=-(cx∑log px+cy∑log py+cz∑log pz)
32、其中,cx、cy、cz为每点在标准典范空间中的坐标真实值,px、py、pz为坐标预测单元对每点三维坐标值的预测概率。
33、进一步地,预训练中所采用的分类损失为:
34、lcategory=-c∑log pc
35、其中,c为目标的真实类别,pc为类别识别模块输出的各类别预测概率。
36、进一步地,根据预测损失更新模型策略参数的方式表示为:
37、
38、其中θ′为基于所有损失更新的模型的参数,λ为内部学习率,为所有损失联合梯度计算,∑(lconst(θ;p)+lcategory(θ;p))为一批训练过程中所有样本的分类损失与坐标预测损失之和。
39、与现有的技术相比,本发明具有以下有益效果及优点:
40、1.本发明相较于当前主流的位姿估计方法,本方法只需要在仿真环境中进行数据收集,并可以直接生成所需要的数据标注,大大减少了模型训练数据准备的时间和精力,极大地提高了模型训练的效率和便利性。
41、2.该方法能够对具有相似结构的同类目标物通用,因此无需对所有待检测目标均进行数据收集与标注,大大提升了方法在实际应用场景中的适用性。
42、3.所提出的方法可作为机器人操作的前置基础功能,广泛应用于各种工业和服务领域,如工业制造、装配、家庭服务操作等,为机器人在处理具有相同结构的同类物体时提供了一种高效、智能的三维识别与定位方法。
1.一种相似物体三维识别和位姿估计系统,其特征在于,包括相似物体三维识别和位姿估计模型,所述相似物体三维识别和位姿估计模型包括:
2.根据权利要求1所述的一种相似物体三维识别和位姿估计系统,其特征在于,所述的标准典范空间状态定义为:标准典范空间状态是对具有相同结构组成但各部分尺寸不一的物体的进行预定义的统一状态。
3.根据权利要求2所述的一种相似物体三维识别和位姿估计系统,其特征在于,点云坐标预测模块将标准典范空间划分为m*m*m的空间网格,针对输入点云中的每个点利用其对应的特征分别对x、y、z三个维度进行六十四分类,从而实现对每个点的标准典范空间坐标预测。
4.根据权利要求1所述的一种相似物体三维识别和位姿估计系统,其特征在于,所述点云特征提取模块包括:
5.根据权利要求1所述的一种相似物体三维识别和位姿估计系统,其特征在于,所述类别识别模块包括:
6.根据权利要求1所述的一种相似物体三维识别和位姿估计系统,其特征在于,所述点云坐标预测模块结构包括:
7.实现权利要求1所述的一种相似物体三维识别和位姿估计系统的方法,其特征在于,包括以下步骤:
8.根据权利要求7所述的一种相似物体三维识别和位姿估计方法,其特征在于,预训练中所采用的预测损失为:
9.根据权利要求7所述的一种相似物体三维识别和位姿估计方法,其特征在于,预训练中所采用的分类损失为:
10.根据权利要求7所述的一种相似物体三维识别和位姿估计方法,其特征在于,根据预测损失更新模型策略参数的方式表示为: