一种基于事件响应相似度匹配的前后台三层关联方法与流程

专利检索2022-05-11  12



1.本发明涉及通信技术领域,具体涉及一种基于事件响应相似度匹配的前后台三层关联方法。


背景技术:

2.随着网络技术的发展,信息安全问题越来越受到重视,应用审计和数据库审计产品得到了越来越广泛的关注和应用。通常而言,对于审计类产品,一个普遍存在的现实需求是能够高效率、高准确率地支持应用日志事件和数据库日志事件的三层关联,从而支撑日志溯源、风险发现等安全需求。
3.目前审计类产品的三层关联算法大多围绕事件请求参数角度进行设计和实现。在现实场景下,由于存在参数内容加密传输、从应用层到数据库层的事件参数黑盒变换等问题,围绕事件请求参数角度的三层关联算法可能失效,从而影响关联准确性。


技术实现要素:

4.本发明的目的是提供一种基于事件响应相似度匹配的前后台三层关联方法,基于应用日志事件和数据库日志事件的响应内容,实现两类事件在事件级别的关联分析,提高了关联效率和准确性。
5.为了实现上述目的,本发明提供如下技术方案:一种基于事件响应相似度匹配的前后台三层关联方法,步骤如下:
6.s1.通过时间窗口重叠滑动方式从应用日志和数据库日志中抽取相同时间窗口范围内的两类事件信息,所述的两类事件信息为应用日志事件和数据库日志事件;
7.s2.基于上一步抽取的两类事件抽取结果,对两类事件进行响应内容清洗;
8.s3.基于上一步事件响应内容的清洗结果,通过simhash算法计算各事件响应内容的指纹,通过simhash指纹表达事件响应内容;
9.s4.基于上一步获得事件响应内容simhash指纹,通过比对两类事件的simhash指纹相似度,实现事件级别的三层关联。
10.作为优选:
11.所述的步骤s1中,时间长度以秒级别为时间单位,例如3秒、5秒等。
12.所述的步骤s2中,对数据库日志事件响应内容的清洗包括将非可打印字符和特殊符号剔除;对应用日志事件响应内容的清洗包括剔除非可打印字符和特殊符号,还包括将html标签、xml标签等常见字符模式剔除。
13.所述步骤s2对应用日志事件响应内容的清洗中,根据应用日志事件的响应内容格式,将图片类、文件类等非文本类型的应用日志事件剔除。
14.所述步骤s2对应用日志事件响应内容的清洗中,根据应用日志事件的响应内容格式,将图片类、文件类等非文本类型的应用日志事件剔除。
15.所述步骤s4中,基于simhash指纹的相似度距离测量方法包括余弦距离算法和汉
明距离算法。
16.所述步骤s4中,同时采用多种相似度测量方法,只要其中之一的测量结果显示两类事件的simhash指纹差异较小,即可判定两类事件响应内容匹配概率较高,从而将对应的两类事件标记为关联事件的准确度较高。
17.本发明所描述的一种基于事件响应相似度匹配的前后台三层关联方法,其核心技术要点在于:
18.1.已有相关专利、发明及其关键算法主要围绕事件参数角度实施三层关联,本发明提出的方法围绕事件响应角度实施三层关联;
19.2.在事件抽取过程,本发明通过时间窗口重叠滑动算法实施事件抽取以提高三层关联效率;
20.3.本发明将simhash算法应用在三层关联技术领域,提出通过simhash指纹相似度匹配实现应用日志事件和数据库日志事件响应内容匹配。
附图说明
21.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
22.图1为本发明的流程图;
23.图2为本发明时间窗口独立滑动示意图;
24.图3为本发明时间窗口重叠滑动示意图;
25.图4为本发明simhash算法关键流程图。
具体实施方式
26.为了使本领域的技术人员更好地理解本发明的技术方案,下面将结合附图对本发明作进一步的详细介绍。
27.本发明提供了如附图1所示的一种基于事件响应相似度匹配的前后台三层关联方法,步骤如下:
28.1.通过时间窗口重叠滑动方式从应用日志和数据库日志中抽取相同时间窗口范围内的两类事件信息。
29.在以往的时间窗口事件抽取过程中,时间窗口常被设定为一段固定的时间长度,并独立滑动抽取事件。一般而言,时间窗口长度设定过短,易导致存在关联性的两类事件分离在两个不同的时间窗口内,从而影响关联效率;如果时间窗口长度设定过长,易影响关联实时性。此外,时间窗口独立滑动也会导致存在关联性的两类事件由于被分割在两个不同的时间窗口内,使其失去关联机会。因此,本发明采用时间窗口重叠滑动方式抽取事件。参考附图2和附图3描述了本发明提出的时间窗口重叠滑动抽取事件方法的直观技术特点。
30.在本发明提出的时间窗口重叠滑动抽取事件过程中,时间长度可以以秒级别为时间单位,例如3秒、5秒等,并且滑动方式采用重叠滑动模式。如参考附图2所示,在时间窗口独立滑动模式下,存在关联性的应用日志事件web-a和数据库日志事件db-x由于处于同一个时间窗口中,有被算法关联的机会,但存在关联性的应用日志事件web-b和数据库日志事
件db-y,由于被分割在两个不同的时间窗口中,除非经过特殊处理,否则失去关联机会。而在时间窗口重叠滑动模式下,事件web-b和事件db-y同时处于相同的时间窗口中,从而依然存在关联机会。因此时间窗口重叠滑动模式可以直接提高两类事件的关联效率。
31.2.基于上一步抽取的两类事件抽取结果,对两类事件进行响应内容清洗。响应内容清洗结果将对关联结果产生直接影响。对数据库日志事件的响应内容而言,可以选择将非可打印字符、特殊符号等字符剔除。对应用日志事件的响应内容而言,除了剔除非可打印字符、特殊符号等字符之外,考虑到应用日志事件的响应内容的格式多样性,可以将html标签、xml标签等常见字符模式剔除。此外,作为优化选项,可以根据应用日志事件的响应内容格式,将图片类、文件类等非文本类型的应用日志事件剔除,以提高整体关联过程的计算性能。
32.3.基于上一步事件响应内容的清洗结果,通过simhash算法计算各事件响应内容的指纹,通过simhash指纹表达事件响应内容。simhash算法是由google提出的局部敏感哈希算法,常被用于搜索引擎的网页去重等技术领域。与传统哈希算法的局部字符变动影响全局指纹计算结果的全局敏感性质不同,simhash算法可以降低局部文本内容变异带来的指纹扰动影响,保障指纹的稳定性。参考附图4描述了simhash算法的常规架构。
33.4.基于上一步获得事件响应内容simhash指纹,通过比对两类事件的simhash指纹相似度,实现事件级别的三层关联。基于simhash指纹的相似度距离测量方法有多种常见选择,例如余弦距离算法、汉明距离算法等。在实际场景下,也可以同时采用多种相似度测量方法,只要其中之一的测量结果显示两类事件的simhash指纹差异较小,即可判定两类事件响应内容匹配概率较高,从而将对应的两类事件标记为关联事件的准确度较高。
34.以上只通过说明的方式描述了本发明的某些示范性实施例,毋庸置疑,对于本领域的普通技术人员,在不偏离本发明的精神和范围的情况下,可以用各种不同的方式对所描述的实施例进行修正。因此,上述附图和描述在本质上是说明性的,不应理解为对本发明权利要求保护范围的限制。
转载请注明原文地址:https://win.8miu.com/read-950051.html

最新回复(0)