本发明涉及审计,具体地,涉及一种基于知识图谱的审计对象画像建模方法和系统。
背景技术:
1、在审计领域,需要根据各类型审计业务需求,从海量的数据里构建审计对象的特征标识,从而完成审计单位风险值评估。传统的审计疑点发现方法,往往是基于某些单个或多个问题特征,对单个对象进行挖掘分析,仅能查询该对象的疑点,无法根据该对象的信息进行扩展挖掘,找出相似的潜在问题对象,缺少拓展性,且需重复分析每个对象,审计覆盖率低,审计效率低。
技术实现思路
1、为了解决传统审计疑点发现方法无法实现潜在问题对象的关联检索和审计对象的关联分析的问题,本发明提供了一种基于知识图谱的审计对象画像建模方法,所述方法包括:将审计对象进行预分类和本体构建分别获得审计对象类别和命名实体类别,所述审计对象类别包括审计单位、审计负责人、审计资金和审计项目,所述命名实体类别包括单位、负责人、资金和项目;获取审计语料,对所述审计语料进行命名实体识别,获得若干命名实体,所述审计语料包括审计文件的结构化数据、半结构化数据和非结构化数据;构建属性感知解码器,基于所述属性感知解码器对所述审计语料进行属性值的抽取,获得若干属性值;基于所述审计对象类别和所述命名实体类别,对所述审计语料进行实体关系的提取,获得若干实体关系;基于所有所述命名实体、所有所述属性值和所有所述实体关系获得审计对象画像模型。
2、本方法原理:将审计对象先进行预分类和本体构建,将同类的审计对象规划分为一类,同类的审计对象有相同特征,对单个审计对象进行挖掘分析时,可以延伸分析至同一分类的审计对象,可以实现关联检索满足某一类特征的所有审计对象,更有针对性的发现同类审计对象的类似风险问题,获取审计语料,对其进行命名实体识别、属性值的抽取和实体关系的提取,基于知识图谱技术进行画像建模,将审计对象关联起来,可以用于类似对象疑点推理,从而很好的覆盖到存在相似风险问题的审计对象,实现潜在问题对象的关联检索,提高审计效率。
3、进一步地,对所述审计语料进行命名实体识别,获得若干命名实体的具体步骤包括:基于命名实体识别模型和预设标签对所述审计语料中的每个句子进行标注获得每个句子中每个词的词标签和每个句子的标签序列,对所述标签序列进行线性变换获得最大概率序列,基于所述最大概率序列对应的所有所述词标签,对所述最大概率序列进行划分获得所有所述命名实体。
4、进一步地,所述方法还包括:对所有所述命名实体的属性进行预分类获得属性标签分类,所述属性标签分类包括单位属性、负责人属性、资金属性和项目属性。
5、进一步地,基于所述属性感知解码器对所述审计语料进行属性值的抽取,获得属性值的具体步骤包括:将所述审计语料中的每个句子进行拆分获得上文信息和下文信息,基于所述上文信息、所述下文信息和所有所述命名实体对属性名进行预测,获得若干预测属性名,基于所述属性标签分类对所有所述预测属性名进行分类,获得所有所述属性值。
6、进一步地,基于所述审计对象类别和所述命名实体类别,对所述审计语料进行实体关系的提取,获得实体关系的具体步骤包括:对所述审计语料进行预处理获得训练集,基于所述训练集获得实体关系提取模型;基于所述审计语料构造语料特征,所述语料特征包括关键词特征、命名实体类别特征和实体对信息特征,基于所述实体关系提取模型对所述语料特征进行拼接融合,获得语料特征向量,基于所述语料特征向量获得语义信息,所述语义信息包括标签语义信息、句子语义信息和实体语义信息,对所述语义信息进行关系分类,获得所有所述实体关系。
7、考虑审计语料的数据庞大,提取出来的命名实体多,实体关系复杂,导致重心数据无法在第一时间检索出,且部分数据对于用户可能无用,则可能会因为数据量过大,对检索结果产生负面影响,从而出现偏差,为了解决上述问题,本方法通过每个命名实体的关系数量和关键词对数据进行提取和简化,使命名实体的数据更为用户需求以及实体关系更简单明了,可以通过实体关系更快的发现潜在问题对象。
8、进一步地,所述方法还包括:基于所有所述实体关系获得每个所述命名实体的关系数量,判断所述关系数量是否小于或等于预设数量,若是则判断所述关系数量是否等于1,若等于1则获取与所述预设数量对应的若干第一命名实体,获取若干第一关键词,基于所有所述第一命名实体和所有所述第一关键词获得第一审计对象画像模型;若所述关系数量不等于1则获取与所述关系数量对应的若干第二命名实体,基于所有所述第二命名实体获得第二审计对象画像模型;若所述关系数量大于所述预设数量,则获取与所述关系数量对应的若干第三命名实体,获取若干第二关键词,基于所有所述第三命名实体和所有所述第二关键词获得第三审计对象画像模型;基于所述第一审计对象画像模型、所述第二审计对象画像模型和第三审计对象画像模型获得第四审计对象画像模型,将所述审计对象画像模型更新为所述第四审计对象画像模型。
9、进一步地,基于所有所述第一命名实体和所有所述第一关键词获得第一审计对象画像模型的具体步骤包括:获取所有所述第一命名实体的属性值获得若干第一属性值,将所有所述第一属性值与所有所述第一关键词进行语义相关性检测获得若干第一相关值,判断所有所述第一相关值是否小于第一预设相关值,若是则将与所述第一相关值对应的所述第一命名实体和所述第一命名实体的实体关系删除,获得所述第一审计对象画像模型。将处于尾节点的命名实体与关键词进行匹配值计算,匹配值低则表示用户不需要,则将其删除。
10、进一步地,基于所有所述第二命名实体获得第二审计对象画像模型的具体步骤包括:获取所有所述第二命名实体的属性值获得若干第二属性值;基于所有所述实体关系获取与所有所述第二命名实体存在实体关系的若干第四命名实体,获取所有所述第四命名实体的属性值获得若干第三属性值,基于所有所述第二属性值与所有所述第三属性值获得任意两个所述第四命名实体之间的若干第四属性值,基于所有所述第四属性值获得所有所述第四命名实体之间的第一实体关系;基于所有所述第一实体关系和所有所述第四属性值获得第二审计对象画像模型。判断命名实体之间是否能将中间的命名实体进行删除,从而简化审计对象画像模型,并将其对应的实体关系和属性值重新计算和提取。
11、进一步地,基于所有所述第三命名实体和所有所述第二关键词获得第三审计对象画像模型的具体步骤包括:获取与每个所述第三命名实体存在实体关系的若干第五命名实体,获取所有所述第五命名实体的第五属性值,将所有所述第五属性值与所有所述第二关键词进行语义相关性检测获得若干第二相关值,判断每个所述第二相关值是否小于第二预设相关值,若是则获取与所述第二相关值对应的所述第五属性值和所述第五命名实体,获得若干第六属性值和若干第六命名实体;将所有所述第六属性值进行关键词提取获得若干关键属性值,基于所有所述关键属性值和所有所述第六命名实体,获得与每个所述关键属性值对应的若干第七命名实体,基于所有所述第七命名实体和所有所述关键属性值获得所述第三审计对象画像模型。将实体关系复杂的命名实体通过与关键词进行匹配值计算,若低则表示用户不需要,将其进行删除,从而实现审计对象画像模型的简化。
12、进一步地,基于所有所述第七命名实体和所有所述关键属性值获得所述第三审计对象画像模型的具体步骤包括:将所有所述第六命名实体和所有所述第六属性值分别更新为所有所述第七命名实体和所有所述关键属性值,所有所述第七命名实体与所述第三命名实体存在实体关系。
13、进一步地,获得最大概率序列采用了以下计算方式:
14、
15、其中,p(y|x)表示标签序列的条件概率分布,tk(yi-1,yi,x,i)和sl(yi,x,i)分别表示转移特征函数和状态特征函数,λk和ul分别是转移特征函数和状态特征函数的权值,z(x)表示规范化因子,x表示观测序列,即待标注的序列,y表示序列x中各个词对应的标签序列,i表示当前节点在序列的位置,k表示定义在i节点的转移特征函数的总个数,l表示定义在i节点的状态特征函数的总个数。
16、本发明还提供了一种基于知识图谱的审计对象画像建模系统,所述系统包括:
17、预分类模块:用于将审计对象进行预分类和本体构建分别获得审计对象类别和命名实体类别,所述审计对象类别包括审计单位、审计负责人、审计资金和审计项目,所述命名实体类别包括单位、负责人、资金和项目;
18、实体模块:用于获取审计语料,对所述审计语料进行命名实体识别,获得若干命名实体,所述审计语料包括审计文件的结构化数据、半结构化数据和非结构化数据;
19、属性值模块:用于构建属性感知解码器,基于所述属性感知解码器对所述审计语料进行属性值的抽取,获得若干属性值;
20、实体关系模块:用于基于所述审计对象类别和所述命名实体类别,对所述审计语料进行实体关系的提取,获得若干实体关系;
21、画像模块:用于基于所有所述命名实体、所有所述属性值和所有所述实体关系获得审计对象画像模型。
22、本系统的原理和效果与本方法相似,对于本系统不进行相应的赘述。
23、本发明提供的一个或多个技术方案,至少具有如下技术效果或优点:
24、1.将审计对象进行预分类和本体构建分别获得审计对象类别和命名实体类别,可以实现关联检索满足某一类特征的所有审计对象,更有针对性的发现同类审计对象的类似风险问题。
25、2.获取审计语料,对审计语料进行命名实体识别,基于属性感知解码器对审计语料进行属性值的抽取和对审计语料进行实体关系的提取,基于知识图谱技术进行画像建模,将审计对象关联起来,可以用于类似对象疑点推理,从而很好的覆盖到存在相似风险问题的审计对象,实现潜在问题对象的关联检索,提高审计效率。
26、3.基于所有实体关系获得每个命名实体的关系数量,并将其与预设数量进行比较判断,获得第四审计对象画像模型,通过每个命名实体的关系数量和关键词对数据进行提取和简化,使命名实体的数据更为用户需求以及实体关系更简单明了,可以通过实体关系更快的发现潜在问题对象。
1.一种基于知识图谱的审计对象画像建模方法,其特征在于,所述方法包括:
2.根据权利要求1所述的一种基于知识图谱的审计对象画像建模方法,其特征在于,对所述审计语料进行命名实体识别,获得若干命名实体的具体步骤包括:
3.根据权利要求2所述的一种基于知识图谱的审计对象画像建模方法,其特征在于,所述方法还包括:
4.根据权利要求3所述的一种基于知识图谱的审计对象画像建模方法,其特征在于,基于所述属性感知解码器对所述审计语料进行属性值的抽取,获得属性值的具体步骤包括:
5.根据权利要求4所述的一种基于知识图谱的审计对象画像建模方法,其特征在于,基于所述审计对象类别和所述命名实体类别,对所述审计语料进行实体关系的提取,获得实体关系的具体步骤包括:
6.根据权利要求5所述的一种基于知识图谱的审计对象画像建模方法,其特征在于,所述方法还包括:
7.根据权利要求6所述的一种基于知识图谱的审计对象画像建模方法,其特征在于,基于所有所述第一命名实体和所有所述第一关键词获得第一审计对象画像模型的具体步骤包括:
8.根据权利要求6所述的一种基于知识图谱的审计对象画像建模方法,其特征在于,基于所有所述第二命名实体获得第二审计对象画像模型的具体步骤包括:
9.根据权利要求6所述的一种基于知识图谱的审计对象画像建模方法,其特征在于,基于所有所述第三命名实体和所有所述第二关键词获得第三审计对象画像模型的具体步骤包括:
10.根据权利要求9所述的一种基于知识图谱的审计对象画像建模方法,其特征在于,基于所有所述第七命名实体和所有所述关键属性值获得所述第三审计对象画像模型的具体步骤包括:
11.根据权利要求2所述的一种基于知识图谱的审计对象画像建模方法,其特征在于,获得最大概率序列采用了以下计算方式:
12.一种基于知识图谱的审计对象画像建模系统,其特征在于,所述系统包括: