本技术属于基于视频流分析的运动分析,具体来说,涉及一种打斗检测方法、装置、监控设备以及存储介质。
背景技术:
1、近年来,社会公共安全问题越来越受到重视,其中,人群打架斗殴现象是影响社会和谐稳定的常见事件。随着监控摄像机普及,通过分析目标场所的监控视频,对打架斗殴现象及时发现和报警,是保护公共安全的有效途径。
2、面对数据量庞大的监控视频资料,仅依靠人工逐帧观察将耗费大量的人力资源。目前基于智能视频分析的打斗检测可分为传统方法和深度学习方法两个方向。传统方法人工设计动作特征,特征设计方向包括运动轨迹、肢体方向、局部外观、帧间变化等;深度学习方法通过深度学习模型学习运动特征,能更好地适应不同的应用环境,比传统方法检测精度更高,是目前的研究趋势。但是基于光流法、帧差法等传统方法的打斗检测方案容易受到视角、光照等背景因素影响,基于视频分类和异常检测的深度学习模型的方案计算成本较大难以实现检测实时性。
技术实现思路
1、针对现有技术在打斗检测上存在的上述问题,本技术提供了一种提升准确率的打斗检测方法、装置、监控设备以及存储介质。
2、为实现上述技术目的,本发明采用的技术方案如下:
3、第一方面,本技术提供一种打斗检测方法,包括:
4、从视频画面中提取视频帧序列;
5、将视频帧序列输入到人体检测模型中识别人体;
6、从识别人体中筛选相邻的人体边界框,从而构建人体框序列;
7、基于关键点检测模型从人体框序列中获取人体骨骼关键点坐标,构建对应的骨骼关键点序列;
8、将骨骼关键点序列输入到预先训练的动作分类模型中获取人体对应的动作状态;
9、通过动作状态判定是否存在相互打斗行为;
10、所述人体检测模型选择yolov5s模型作为基准模型进行训练得到,其中损失包括分类损失、定位损失、置信度损失以及互斥损失,其中互斥损失的计算公式为:lrep=αlgt+βlbox,其中lgt代表预测人体边界框与其他的真实人体边界框之间的损失,lbox代表预测人体边界框与其他的预测人体边界框之间的损失,α和β代表可学习的权重。
11、采用上述技术方案的打斗检测方法,在yolov5s模型的原有损失基础上添加了互斥损失来加强人体检测模型对遮挡人体的识别和对重叠人体的区分,提升重叠人体边界框坐标的预测精度,相应改善了后续基于骨骼关键点序列的深度学习方法实现视频动态检测的效果。
12、在一些实施例中,所述关键点检测模型利用基于lite-hrnet模型训练得到,并利用其中关键点重构骨骼关键点图,其中将鼻、左右眼和左右耳的中心点作为头部关键点并替代原有关键点,去掉原有的双肩、双髋关键点连线,新增头肩、头髋关键点连线。
13、在一些实施例中,所述预先训练的动作分类模型的训练过程包括:
14、采集打斗数据作为正样本,非打斗数据作为负样本,对正样本和负样本使用抽样策略和扩充策略构建待训练视频帧序列;
15、利用人体检测模型提取待训练视频帧序列中的人体边界框;
16、基于关键点检测模型计算人体骨骼关键点,并构建骨骼关键点序列;
17、利用st-gcn模型对骨骼关键点序列进行训练得到动作分类模型。
18、在一些实施例中,所述从识别人体中筛选相邻的人体边界框,从而构建人体框序列,具体包括:
19、将视频帧序列中识别人体所对应的所有候选人体边界框作为集合x,按照置信度排序,取置信度最大的候选人体边界框作为锚定人体边界框并加入集合d,集合x中其他候选人体边界框为待定人体边界框;
20、计算锚定人体边界框与每一个待定人体边界框之间的第一重合度iou和待定人体边界框的置信度分数s';
21、根据第一重合度iou确定第二重合度diou,计算公式为:
22、
23、其中,b1为锚定人体边界框,b2为待定人体边界框,d1表示锚定人体边界框与待定人体边界框的中心点欧氏距离,d2为锚定人体边界框与待定人体边界框的并集面积对角之间的距离;
24、根据第二重合度得到每一个待定人体边界框的修正置信度分数s,计算公式为:
25、
26、其中,σ为经验参数,取0~0.8;
27、若锚定人体边界框与待定人体边界框之间的第二重合度diou大于预设的重叠度阈值,则删除集合x对应的待定人体边界框;
28、在剩余待定人体边界框组成的集合x中,按照置信度排序,取置信度最大的待定人体边界框作为新的锚定人体边界框并加入集合d,更新剩余待定人体边界框构成的集合x,重复上述步骤,直到集合x中没有待定人体边界框,此时集合d即为筛选出的人体边界框;
29、将集合d内属于同一人体的人体边界框坐标信息进行串联,并从中抽取连续l帧视频帧构成人体框序列。
30、在一些实施例中,所述基于关键点检测模型从人体框序列中获取人体骨骼关键点坐标,构建对应的骨骼关键点序列,具体包括:
31、根据人体框序列中每一个人体边界框的坐标信息从原视频帧中裁剪出人体图像;
32、将预处理后的人体图像输入到关键点检测模型中得到该人体的关键点信息,所述人体的关键点信息包括人体骨骼关键点坐标和置信度;
33、根据人体的关键点信息构建人体框序列对应的骨骼关键点序列。
34、在一些实施例中,所述将骨骼关键点序列输入到预先训练的动作分类模型中获取人体对应的动作状态,具体包括:
35、将骨骼关键点序列输入到动作分类模型,输出骨骼关键点序列所属动作分类的可能性预测;
36、对于每一个人体的骨骼关键点序列,所述动作分类的可能性预测包括一对置信度分数,分别为该人体动作属于打斗类别和非打斗类别的概率,将概率更高的类别视为骨骼关键点序列对应的动作状态。
37、在一些实施例中,所述通过动作状态判定是否存在相互打斗行为具体包括:
38、将任一人体作为目标人体,根据其骨骼关键点序列预测连续n次动作状态,若其中有k次动作状态属于打斗类别,则认为该目标人体存在打斗行为;
39、搜索这k次动作状态属于打斗类别的视频序列帧,判断其他人体是否也存在打斗行为;
40、若其他人体存在打斗行为,则计算该帧中其他人体与目标人体之间的中心点欧式距离;
41、若该距离小于目标人体的人体边界框对角距离,则表示其他人体与目标人体之间存在相互打斗行为。
42、第二方面,本技术还提供一种打斗监测装置,包括:
43、视频帧提取模块,用于从视频画面中提取视频帧序列;
44、人体获取模块,其将视频帧序列输入到人体检测模型中识别人体;
45、人体框序列构建模块,其从识别人体中筛选相邻的人体边界框,从而构建人体框序列;
46、骨骼关键点序列构建模块,其基于关键点检测模型从人体框序列中获取人体骨骼关键点坐标,构建对应的骨骼关键点序列;
47、动作状态判断模块,其将骨骼关键点序列输入到预先训练的动作分类模型中获取人体对应的动作状态;
48、打斗行为判断模块,通过动作状态判定是否存在相互打斗行为。
49、第三方面,本技术还提供一种监控设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述实施例任一项所述的打斗检测方法。
50、第四方面,本技术还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有程序指令,当所述程序指令在计算机或处理器上运行时,实现上述任一实施例所述的方法。
51、基于上述实施例,本技术提出了一种改进的打斗检测方法,联立人体检测模型、关键点检测模型和动作分类模型,在基于yolov5s的人体检测模型中添加了互斥损失,并结合基于距离的并集度量(diou)和软裕度非极大值抑制(soft-nms)优化对人体边界框的筛选,提升对遮挡人体的识别和对重叠人体的区分,从而改善后续关键点检测和打斗行为检测的效果,对打斗结果添加合理的逻辑判定,最终提升真实场景下打斗检测的精度。
52、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
1.一种打斗检测方法,其特征在于,包括:
2.根据权利要求1所述的打斗检测方法,其特征在于,所述关键点检测模型利用基于lite-hrnet模型训练得到,并利用其中关键点重构骨骼关键点图,其中将鼻、左右眼和左右耳的中心点作为头部关键点并替代原有关键点,去掉原有的双肩、双髋关键点连线,新增头肩、头髋关键点连线。
3.根据权利要求1或2所述的打斗检测方法,其特征在于,所述预先训练的动作分类模型的训练过程包括:
4.根据权利要求3所述的打斗检测方法,其特征在于,所述从识别人体中筛选相邻的人体边界框,从而构建人体框序列,具体包括:
5.根据权利要求3所述的打斗检测方法,其特征在于,所述基于关键点检测模型从人体框序列中获取人体骨骼关键点坐标,构建对应的骨骼关键点序列,具体包括:
6.根据权利要求3所述的打斗检测方法,其特征在于,所述将骨骼关键点序列输入到预先训练的动作分类模型中获取人体对应的动作状态,具体包括:
7.根据权利要求6所述的打斗检测方法,其特征在于,所述通过动作状态判定是否存在相互打斗行为具体包括:
8.一种打斗监测装置,其特征在于,包括:
9.一种监控设备,其特征在于,包括:
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序指令,当所述程序指令在计算机或处理器上运行时,实现权利要求1-7中任一项所述的打斗检测方法。