本申请涉及数据处理领域,尤其涉及一种数据识别方法、装置、电子设备及存储介质。
背景技术:
1、随着互联网技术的迅速发展,网络攻击手段日益多样化和隐蔽化,使得黑产活动更容易实施,同时也更难以被监测和追踪;对于利用互联网技术从事违法活动的用户称之为黑产用户。黑产用户的违法活动会对各个网络运营主体造成危害,因此各个网络运营主体为了运营的正常和高效会持续性的进行黑产用户识别。
2、目前对于黑产用户的识别方式,主要是对各个用户的行为进行采集和分析;该方式虽然可以识别出用户是否属于黑产用户,但是该方式需要采集大量的用户行为进行分析处理,并且仅能各个用户逐一识别,存在识别难度大和识别效率低下的问题。
技术实现思路
1、为了解决上述技术问题,本申请提供了一种数据识别方法、装置、电子设备及存储介质。
2、第一方面,本申请提供了一种数据识别方法,包括:
3、获取用户的强关联数据;
4、依据所述强关联数据进行知识图谱构建,得到用户群组数据,所述用户群组数据包含用户账号和所述用户账号对应的特征标识;
5、依据所述特征标识进行数据分析,得到所述用户群组数据对应的聚集特征数据;
6、依据所述聚集特征数据,结合所述用户群组数据对应的业务信息进行风控监测,得到所述用户账号对应的风控监测结果。
7、可选的,所述获取用户的强关联数据,包括:
8、获取实时日志数据;
9、从所述实时日志数据中,筛选出用户的强关联数据。
10、可选的,所述依据所述强关联数据进行,得到用户群组数据,包括:
11、基于所述强关联数据中的所述用户账号和目标关联数据,确定图谱节点,所述目标关联数据为与所述用户账号绑定的关联数据;
12、基于所述用户账号与所述目标关联数据之间的对应关系,确定所述图谱节点对应的节点边;
13、采用所述节点边和所述图谱节点,生成知识图谱;
14、采用所述知识图谱确定所述用户账号对应的特征标识;
15、基于所述用户账号和所述特征标识,生成所述用户群组数据。
16、可选的,所述依据所述特征标识进行数据分析,得到所述用户群组数据对应的聚集特征数据,包括:
17、提取所述用户群组数据中的各个用户账号对应的地址标识,得到地址标识集合;
18、将所述地址标识集合中数量最多的所述地址标识,确定为目标地址标识;
19、依据所述目标地址标识的目标数量和所述地址标识集合的总地址数量,确定所述目标地址标识对应的注册聚集度;
20、采用所述注册聚集度确定所述聚集特征数据。
21、可选的,所述依据所述特征标识进行数据分析,得到所述用户群组数据对应的聚集特征数据,包括:
22、提取所述用户群组数据中的各个所述用户账号对应的注册时间标识;
23、依据所述注册时间标识,确定各个预设时间段对应的注册数量;
24、基于所述注册数量,确定目标时间段,所述目标时间段为所述预设时间段中注册数量最大对应的时间段;
25、依据所述目标时间段对应的目标注册数量和所述用户群组数据对应的总注册数量,确定所述目标时间段对应的注册聚集度;
26、采用所述注册聚集度确定所述聚集特征数据。
27、可选的,所述依据所述聚集特征数据,结合所述用户群组数据对应的业务信息进行风控监测,得到所述用户账号对应的风控监测结果,包括:
28、获取所述用户群组数据对应的业务信息;
29、依据所述业务信息确定拦截阈值;
30、若所述聚集特征数据大于所述拦截阈值,则将所述用户账号确定为黑产账号,并基于所述黑产账号生成所述风控监测结果。
31、可选的,依据所述业务信息确定拦截阈值,包括:
32、依据所述业务信息确定测试阈值;
33、采用所述测试阈值与所述注册聚集度进行测试识别,得到测试识别结果;
34、基于所述测试识别结果,确定黑名单召回率和白名单误伤率;
35、在所述黑名单召回率高于预设召回率,且所述白名单误伤率低于预设误伤率的情况下,将所述测试阈值确定为所述拦截阈值。
36、第二方面,本申请提供了一种数据识别装置,包括:
37、获取模块,用于获取用户的强关联数据;
38、知识图谱构建模块,用于依据所述强关联数据进行知识图谱构建,得到用户群组数据,所述用户群组数据包含用户账号和所述用户账号对应的特征标识;
39、数据分析模块,用于依据所述特征标识进行数据分析,得到所述用户群组数据对应的聚集特征数据;
40、风控监测模块,用于依据所述聚集特征数据,结合所述用户群组数据对应的业务信息进行风控监测,得到所述用户账号对应的风控监测结果。
41、第三方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
42、存储器,用于存放计算机程序;
43、处理器,用于执行存储器上所存放的程序时,实现第一方面任一项所述的数据识别方法。
44、第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面任一项所述的数据识别方法。
45、本申请实施例通过获取用户的强关联数据,并依据强关联数据进行知识图谱构建,得到用户群组数据,用户群组数据包含用户账号和用户账号对应的特征标识,以依据特征标识进行数据分析,得到用户群组数据对应的聚集特征数据,使得可以依据聚集特征数据,结合用户群组数据对应的业务信息进行风控监测,得到用户账号对应的风控监测结果;从而可以对多个用户进行同时进行风控监测,提高识别效率,并且本申请实施例无需采集用户行为数据,进而能够降低黑产识别难度。
1.一种数据识别方法,其特征在于,包括:
2.根据权利要求1所述的数据识别方法,其特征在于,所述获取用户的强关联数据,包括:
3.根据权利要求1所述的数据识别方法,其特征在于,所述依据所述强关联数据进行,得到用户群组数据,包括:
4.根据权利要求1所述的数据识别方法,其特征在于,所述依据所述特征标识进行数据分析,得到所述用户群组数据对应的聚集特征数据,包括:
5.根据权利要求1所述的数据识别方法,其特征在于,所述依据所述特征标识进行数据分析,得到所述用户群组数据对应的聚集特征数据,包括:
6.根据权利要求1-5任一所述的数据识别方法,其特征在于,所述依据所述聚集特征数据,结合所述用户群组数据对应的业务信息进行风控监测,得到所述用户账号对应的风控监测结果,包括:
7.根据权利要求6所述的数据识别方法,其特征在于,依据所述业务信息确定拦截阈值,包括:
8.一种数据识别装置,其特征在于,包括:
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的数据识别方法。