本发明属于计算机视觉,涉及利用事件相机进行人体姿态估计,具体为一种应用于事件相机的基于相对时间戳表示法进行人体姿态估计的方法。
背景技术:
1、人体姿态估计是计算机视觉中的一项重要任务,也是计算机理解人体的动作或行为不可或缺的一部分,而人体姿态估计的难点在于如何从图像中准确定位到人体关节点的位置,并根据这些关节点组成整个人体。现有的人体姿态估计方法大都是基于传统帧相机进行的,如openpose、cpm、cpd等等,并且已经取得了一定的进展。但是,由于传统的帧相机是以固定帧率捕获的一系列静态帧而得到的一系列图像,这就会带来一些问题,比如:因为背景信息在每一帧中都会有记录,所以大部分数据是冗余的,这就导致后续的处理更加费时费力;而且与运动物体相关的信息会受到相机帧速率的限制,导致运动模糊等情况产生,使得人体姿态估计的效果降低,而事件相机的高动态范围特性使这一情况得到了很好的改善。
2、事件相机是一款受生物启发的新型视觉采集传感器,它提出了视觉传感器技术的范式转变,它能够提供连续和异步的亮度变化事件流。与传统的基于帧的相机相比,动态视觉传感器(dvs)等事件相机能够以更低的功耗预算和更少的数据传输带宽提供更高的动态范围和更高的时间分辨率。事件相机的输出数据是以四元组形式表示的,分别包含像素位置、事件的极性以及事件产生的时间,事件相机提供的信息具有低冗余和高稀疏性,既节省内存又减少计算量,同时又保留了相机视野中的重要信息。事实上,事件摄像机的特性使其成为运动相关任务应用的一个有吸引力的选择。此外,先前的研究表明,与基于标准帧的输入相比,dvs稀疏表示和高动态范围可以促进卷积神经网络(cnn)的学习。到目前为止,已经有人提出将cnn应用于事件相机的输出来解决分类和单输出回归任务。接下来详细介绍这一领域中相关的技术。
3、(1)基于简单卷积神经网络(cnn)的事件相机人体姿态估计
4、enrico calabrese等人在dhp19:dynamic vision sensor 3d human posedataset中首先使用cnn网络应用于事件相机上进行人体姿态估计,并制作了第一个用于多视图人体姿态估计(hpe)的事件相机基准数据集。他们的方法是从多个事件摄像机记录的事件流中恢复可见的人体关节的位置。他们提出的方法的优点是,它能够从两个事件相机处理成的事件帧中提取人体姿态信息,并得到3d人体姿态估计结果。然而,由于事件相机稀疏性的特性,在一帧事件帧中包含的人体姿态信息往往是不全的,可能只有产生运动的人体部位的这一小部分信息,这将会使cnn网络预测结果的准确性大大降低。此外,dhp19需要两个视角下的事件相机数据进行同步处理,运用三角测量法得到最终的3d人体估计结果,这在实际应用中显得不太实用,我们更倾向于采用单个视角下的事件进行人体姿态估计。
5、(2)基于光流估计的事件相机人体姿态估计
6、shihao zou等人在eventhpe:event-based 3d human pose and shapeestimation提出了一种两阶段的深度学习方法,称为eventhpe。该方法旨在利用事件和光流这两种模态来更准确地估计三维人体姿态。首先,在第一阶段,使用flownet进行无监督学习,以推断事件中的光流。这种光流可以提供明确的几何信息,以描述人体运动。然后,第二阶段将flownet的输出和事件数据共同作为shapenet的输入,以更准确地估计三维人体姿态。这种方法在没有监督的情况下进行训练,因此可以减少人工标注数据的需求。使用事件和光流这两种模态来估计人体姿态的方法具有多个优点。首先,事件和光流都与人体运动密切相关,因此可以提供更准确的信息来描述人体姿态。其次,采用光流作为估计人体姿态的重要信息,可以大大减少需要的输入数据量。然而,由于光流估计结果所带来的误差会在前后帧之间累计,导致对于人体姿态关节点位置预测的误差增大,并且这种误差很难被消除。
7、上述方法虽然在一定程度上实现了人体姿态估计的任务,但在使用事件数据作为输入时,没有考虑事件数据的局部稀疏性,且方法普遍缺乏泛化性。虽然在设计中没有考虑特定的领域知识,但普通的视觉转换器在视觉识别任务中表现出了优异的性能。然而,很少有人揭示这种简单结构的在人体姿态估计任务中的潜在应用。
技术实现思路
1、为解决上述方法中存在的问题,本发明提出了一种自适应视觉转换器框架,即基于简单模型结构并结合事件数据输入的模型训练的灵活性和可扩展性,在实现基于事件相机的人体姿态估计方面有着惊人的性能。具体来说,自适应视觉转换器框架使用视觉转换器(vision transformer,vit)作为骨干网络,利用自适应图像块采样和自适应令牌的方式减少计算量,结合事件特征来提取给定人体的姿态特征,并使用轻量级解码器进行姿态估计。
2、本发明的技术方案:
3、一种用于事件相机人体姿态估计的自适应视觉转换器,为应用于事件相机的基于相对时间戳表示法进行人体姿态估计的方法,首先通过对事件流数据采用局部归一化事件表面(locallynormalisedeventsurfaces,lnes)进行处理来获取网络输入,然后送入到自适应视觉转换器,即首先对输入图像进行图像块采样,只关注那些更有可能包含人体信息的图像块,同时在网络学习的过程中自适应的减少图像块的数量,提取高层特征,最后进行人体姿态的估计处理,步骤如下:
4、(1)由于事件摄像机的原始事件流是异步和离散的,为了进一步提高事件利用率,利用局部归一化事件表征方法(lnes)来处理事件流数据,该处理方式同时保留了事件的空间信息和时间信息,该处理方式最早提出来是应用于三维手势估计,本发明首次将其应用在人体姿态估计方面。这种处理方法是将固定时间窗口t内的所有事件编码为图像(w和h分别表示图像的宽度和高度),根据事件极性将它们分为正通道和负通道,使得事件帧图像保留的信息尽可能的多,具体如下:
5、
6、其中(xi,yi)表示像素位置,pi表示极性,ti表示当前事件的时间,t0表示时间窗口的开始时间,t表示时间窗口的长度。
7、(2)视觉转换器网络通过以下方式进行预测:
8、
9、其中编码网络ε(·)将事件图像i转化为一个个图像块每个图像块被映射成一个向量为图像块大小,c是图像块的通道数,d是每个令牌向量的维度,n是图像块的数量,其中为在整个图像转换之后对转换后的向量进行后处理,而中间转换器块l的输入通过自注意力转换得到。
10、并非所有来自lnes事件表示的n个图像块都包含清晰的人体轮廓,有一些图像块的信息熵较低,没有人体轮廓信息,这对于人体姿态估计任务中的特征提取没有任何价值,还增加了不必要的计算量。本发明的自适应采样选择85%图像块数量,即只保留那些具有更多信息熵的图像块。
11、经过自适应采样保留的图像块被转换为向量e,如第一层的公式(3)所示,事件图像i划分得到的n个图像块被转换为向量x1,…,xn:
12、z0=[xclass;x1e;x2e;…;xne]+epos (3)
13、其中是位置向量,是特征向量,将两者结合后的向量被传递到第l层编码器。为了提高自适应视觉转换器的效率,在网络推理期间加入了自适应令牌减少的操作,也就是随着视觉转换器层数的加深,令牌数量在不断减少。
14、(3)考虑第l层的转换器,它通过以下方式从l-1层转换得到:
15、
16、其中表示所有n个更新后的令牌,其中其中,编码器的内部计算过程允许将图像块数量n减少之后再传递到下一层,减少操作的具体方法为,当令牌信息熵分数过低时就会被丢弃,而那些具有较高信息熵分数的令牌则会被保留,同样按照85%的比例进行保留,该操作减少了不必要的计算,其所带来的计算增益无疑是巨大的。视觉转换器对整个层中的所有令牌使用和向量e一致的向量维度,这使得在视觉编码器中学习和捕获所有层的全局信息熵变得容易。与需要清晰处理不同深度(例如通道数)的不同结构尺寸的cnn相比,自适应令牌的方式计算更加简单。
17、为了自适应地利用令牌,本发明为每个令牌引入了一个与输入相关的信息熵分数,如第l层令牌m的信息熵分数使用表示:
18、
19、其中ie(·)是信息熵分数,利用信息熵的变化实现自适应令牌减少的机制被应用于每个编码器层的后续组件中。
20、每个编码器层中最重要的两个组件是多头自注意力(multi-headed self-attention,msa)和多层感知(multilayer perceptron,mlp)。图1(b)所示的第l编码器层可以写成:
21、z′l=msa(ln(zl))+zl (6)
22、zl+1=msa(ln(z′l))+z′l (7)
23、其中zl表示第l层的输出,l∈{1,2,…,l},ln(·)表示归一化函数。
24、msa由k个自注意力(sa)头组成。每个sa头的设置如下:
25、
26、其中[q,k,v]=[zluq,zluk,zluv]。
27、三个可学习矩阵uq,uk,将向量映射到其中dh是维度。因此,每个sa头都在中。第k个头在图像块向量上单独操作,然后它们的输出通过msa中中的可训练投影msa连接并投影回公式化为:
28、msa(zl)=[sa1(zl);sa2(zl);…;sak(zl)]umsa (9)
29、本发明的有益效果:
30、本发明采用图像块的方式对输入的图像数据进行采样,只保留信息熵较高的部分,过滤掉图像中无关紧要的背景部分,大大减少计算量的同时也能够提高网络估计的精度。此外,在网络学习过程中,采用自适应令牌的方式对图像块进行减少,即能够尽可能使得网络更加关注那些信息熵较高更有可能包含人体关节点的图像块,也能够更进一步的过滤掉背景噪声减少计算量,使得网络更加准确高效。
1.一种用于事件相机人体姿态估计的自适应视觉转换器,该方法首先对输入图像进行图像块采样,只关注那些更有可能包含人体信息的图像块,同时在网络学习的过程中自适应的减少图像块的数量,使得整个网络更加准确高效,并且图像输入采用基于相对时间戳的表示方法,其特征在于,步骤如下: