一种基于图像序列的目标检测方法

专利检索2025-01-18  22


本发明属于目标检测,具体为一种基于图像序列的目标检测方法。


背景技术:

1、在目标检测技术中,常使用基于单帧图像的目标检测方法,随着智能视频监控、机器人导航等技术进一步贴近人们的生活,视频数据正在飞速增长,因此对视频目标检测技术的需求变得更为普遍。

2、与单帧图像数据相比,视频图像数据包含了目标的时序信息与物体运动信息。当采取恰当的划分方式将视频划分成多帧序列时,同一个目标如果在相邻几帧图像中共同存在,则可以构造目标的序列信息,并为某一帧图像检测提供参考信息,提升目标检测的准确性和鲁棒性。

3、在视频目标检测中,需要完成的工作包括以下两部分:①对视频中每一帧图像中的目标进行准确定位,包括目标框大小、中心点位置信息;②对每一帧图像的目标所属类别进行正确的划分,即对目标的类别进行正确识别。当前单帧目标检测算法大多与深度学习相结合,主要可分成两类:第一类方法先从图像中筛选目标可能的候选区域,再通过卷积神经网络对筛选出的区域进行调整优化,进而预测出目标的分类和边界框信息;第二类方法则提出一种端到端的方式对目标框和类别信息在整张图像上同时进行回归,获取预测框的位置、大小以及类别置信度,避免了筛选和优化预测框的过程。相比之下,第一类检测算法的精度较高,但检测速度较慢,例如r-cnn、fast r-cnn等算法;第二类检测算法精度较低,但检测速度较快,因此多运用于实时检测,例如ssd、yolo系列等算法。在移动机器人领域中,yolov4(you only look once v4)以其较高的精度以及较快的速度得到了广泛的应用。然而,基于单帧的目标检测算法无法很好地适用于包含动态模糊,视角和尺度差异较大的场景。因此,需要对单帧算法进行改进。

4、在视频目标检测中,图像序列之间存在一定的时序信息。利用该信息,选取目标框数据进行预测,可以预测得到目标框的大小和目标在视频检测过程中的运动趋势。其中,目标框的预测数据和目标运动趋势可以帮助目标进行定位,但需要考虑以下两点:①相机与目标的相对运动具有不确定性,很难得到很好的预测效果;②单帧目标检测算法对目标定位准确性很高,但在目标检测和识别方面需要改进。因此,本专利选取通用主流的yolov4算法进行改进,对目标特征提取层的输出数据进行预测。

5、然而,现有的视频目标检测算法主要对关键帧选择策略和目标特征融合方面进行改进,在视角变化等不利因素的影响下难以取得很好的结果。具体影响表现在:如果当前帧在yolov4下的预测类别与前几帧有所不同,仅通过预测分类信息的不同不能直接判断该目标是类别识别错误还是新出现的目标;如果当前帧在yolov4下的预测类别与前几帧某些目标类别相同,也有可能是错误识别了其他类型的目标。为解决以上可能出现的不同情况,可利用历史信息,对待改善帧图像的每一个目标都进行特征提取层数据的预测。

6、传统神经网络在对序列信息进行分析的过程中,很难利用历史的信息对后来事件做出处理,而具有循环结构的神经网络能够解决这个问题。循环神经网络自身具有环路,其循环结构展开后会呈现为链式结构,其形状揭示了其与序列类型数据的相关性。而实际研究表明,循环神经网络广泛运用于翻译、语音识别字幕识别等频繁使用序列信息的领域,且都取得了不错的成效。循环神经网络可以将以往的信息与当前的信息进行关联,但在视频多帧图像的情况下,任务相对复杂,有用的信息与当前信息相隔较远,普通的循环神经网络在实际应用中无法处理“长依赖”的问题。而长短时记忆(long short-term memory,lstm)网络与普通的循环神经网络的区别在于:它是一种特殊的递归神经网络,在保证了循环网络链式结构的同时,使用三个门来控制单元状态,包括遗忘门、输入门和输出门,由遗忘门决定遗忘的信息,输入门决定信息的更新,输出门决定单元的状态输出,因此能够充分利用视频中的序列信息,从而在连续多帧图像的目标识别中做出更好的决策。

7、在对当前时刻的图像进行目标识别时,将实际检测信息与lstm预测得到的目标参考信息融合起来,能够得到更可靠的判断。有相关研究表明,d-s证据组合规则常被用于处理高冲突证据信息,能够有效融合两种或多种信息,因此本发明使用基于d-s证据融合规则的置信度融合方法。


技术实现思路

1、针对现有技术的不足,本发明提出了一种基于图像序列的目标检测方法,通过将目标检测框架yolov4与lstm相结合,充分利用图像数据的序列信息,辅助改善每帧图像的目标检测效果,提高目标识别的准确率。

2、本发明基于图像序列信息,在目标检测过程中首先用yolov4检测算法得到目标检测结果,再使用lstm得到预测的目标检测结果,然后将这两种检测结果利用d-s证据理论进行融合,通过充分利用图像序列的序列信息,辅助改善每帧图像的目标检测效果,从而改善单帧目标检测的局限性。

3、为实现上述目的,本发明提供了如下技术方案:

4、一种基于图像序列的目标检测方法,包括以下步骤:

5、步骤一:将视频数据转换成图像序列,利用yolov4算法得到当前帧与历史帧的目标特征提取层数据,然后对该数据上的每个目标与历史帧中的目标进行相似匹配以构造每个目标的序列数据;

6、步骤二:将每个目标的序列数据输入到lstm网络中,对当前帧的目标特征提取层数据进行预测;

7、步骤三:将yolov4算法得到的目标特征提取层数据和lstm网络预测的当前帧目标特征提取层数据分别输入到各自的yolov4解码预测模块,分别得到基于当前帧检测与基于历史帧预测的关于目标的类别置信度,然后利用d-s证据融合规则,将两数据的置信度进行融合,得到新的目标检测结果。

8、本技术方案进一步的优化,所述相似匹配如下:将当前帧图像称为待改善帧,记为in,对于in,获取其包含的所有目标的序列信息;在已经利用yolov4对in进行目标检测并获取in中每个目标的信息,组成目标集合bn={b1,b2,…,bn}后,对bn中的每一个目标bi,都要在历史图像的目标集合b1~n-1中寻找相似目标,获取帧间匹配结果;如果特征提取层输出数据相似度达到90%以上,则认为该目标出现在了历史图像中,将该数据按图像帧的时间先后顺序保存,得到目标序列di={bt1,bt2,…,bt(n-1)},用于目标bi的特征提取层信息预测;如果没能找到相似的目标,则可能为新出现的目标,不改变此目标的数据;对待改善帧中的各个目标依次使用该方式生成序列数据,该序列数据包含了第n帧图像之前所有图像关于该目标的相关历史信息。

9、本技术方案进一步的优化,所述步骤二在序列数据生成后,依次将其输入到lstm网络,对目标特征提取层输出数据的每一维进行预测,输出为与该数据同维度的待改善帧目标特征提取层的预测数据。

10、本技术方案进一步的优化,所述步骤三中,首先将步骤一中yolov4提取的目标特征提取层数据和步骤二中lstm网络的目标特征提取层预测数据作为两个证据体,记为证据体b和证据体c,其焦元分别为bi和cj,将上述两结果输入到yolov4的解码预测模块,分别得到两证据体关于目标在80个类别上的置信度,则两个证据体的假设空间为s={s1,s2,…,si,…,s80},si表示证据体b或c假设目标所属类别为i的假设概率,将每个类别的置信度作为假设概率,归一化处理后得到证据体b中焦元bi的概率分配函数m1(bi)和证据体c中焦元cj的概率分配函数m2(cj),归一化处理规则如下:

11、

12、

13、然后,采用d-s证据理论对两证据的概率分配函数进行融合,得到新的概率分配函数,将它的假设概率作为置信度融合结果,记融合后的最终结果为a,当a非空时,组合规则如下:

14、

15、

16、其中,m(a)为融合两证据体bi、cj后的概率分配函数;m1、m2分别表示两证据体提供的关于a的概率分配函数;k为冲突系数,能够描述出证据间的冲突大小情况,k越大表明证据之间的冲突越大;为正则化因子,本质上是为了使m(a)总和值为1;bi∩cj=a为证据体b中焦元bi与证据体c中焦元cj的交集为a;bi∩cj=φ为证据体b中焦元bi与证据体c中焦元cj的交集为空集φ,由此,m(a)给出了一个新的基本置信分配,各类别的置信度均为融合后的概率,表征两个证据体对该目标在所属类别下的认可程度的共同判断,最后获取融合后概率的最大值及其对应的类别,以此作为该目标的新置信度信息。

17、区别于现有技术,上述技术方案的有益效果:

18、本发明提出的基于图像序列的目标检测方法能够有效学习历史信息,为当前时刻的目标检测提供参考,以提高目标识别的准确率。本专利在单一目标类别场景下图像序列中能够对yolov4目标类别检测的错误结果进行修正,并且在一定程度上提升目标识别的置信度。在多目标类别场景中也能进一步验证该方法的有效性。


技术特征:

1.一种基于图像序列的目标检测方法,其特征在于,包括以下步骤:

2.如权利要求1所述的基于图像序列的目标检测方法,其特征在于,所述相似匹配如下:将当前帧图像称为待改善帧,记为in,对于in,获取其包含的所有目标的序列信息;在已经利用yolov4对in进行目标检测并获取in中每个目标的信息,组成目标集合bn={b1,b2,…,bn}后,对bn中的每一个目标bi,都要在历史图像的目标集合b1~n-1中寻找相似目标,获取帧间匹配结果;如果特征提取层输出数据相似度达到90%以上,则认为该目标出现在了历史图像中,将该数据按图像帧的时间先后顺序保存,得到目标序列di={bt1,bt2,…,bt(n-1)},用于目标bi的特征提取层信息预测;如果没能找到相似的目标,则可能为新出现的目标,不改变此目标的数据;对待改善帧中的各个目标依次使用该方式生成序列数据,该序列数据包含了第n帧图像之前所有图像关于该目标的相关历史信息。

3.如权利要求1所述的基于图像序列的目标检测方法,其特征在于,所述步骤二在序列数据生成后,依次将其输入到lstm网络,对目标特征提取层输出数据的每一维进行预测,输出为与该数据同维度的待改善帧目标特征提取层的预测数据。

4.如权利要求1所述的基于图像序列的目标检测方法,其特征在于,所述步骤三中,首先将步骤一中yolov4提取的目标特征提取层数据和步骤二中lstm网络的目标特征提取层预测数据作为两个证据体,记为证据体b和证据体c,其焦元分别为bi和cj,将上述两结果输入到yolov4的解码预测模块,分别得到两证据体关于目标在80个类别上的置信度,则两个证据体的假设空间为s={s1,s2,…,si,…,s80},si表示证据体b或c假设目标所属类别为i的假设概率,将每个类别的置信度作为假设概率,归一化处理后得到证据体b中焦元bi的概率分配函数m1(bi)和证据体c中焦元cj的概率分配函数m2(cj),归一化处理规则如下:


技术总结
本发明属于目标检测技术领域,具体为一种基于图像序列的目标检测方法。该方法包括以下步骤:步骤一:将视频数据转换成图像序列,利用YOLOv4算法得到当前帧与历史帧的目标特征提取层数据,然后对该数据上的每个目标与历史帧中的目标进行相似匹配以构造每个目标的序列数据;步骤二:将每个目标的序列数据输入到LSTM网络中,对当前帧的目标特征提取层数据进行预测;步骤三:将YOLOv4算法得到的目标特征提取层数据和LSTM网络预测的当前帧目标特征提取层数据分别输入到各自的YOLOv4解码预测模块,分别得到基于当前帧检测与基于历史帧预测的关于目标的类别置信度,然后利用D‑S证据融合规则,将两数据的置信度进行融合,得到新的目标检测结果。

技术研发人员:苑晶,李琦钰,王伯冉,张雪波,王扬,孙星宇
受保护的技术使用者:南开大学
技术研发日:
技术公布日:2024/5/29
转载请注明原文地址:https://win.8miu.com/read-1148856.html

最新回复(0)