一种基于知识图谱的公共安全风险评估方法

专利检索2025-04-24  14


本发明涉及公共安全风险识别领域,更确切地说,它涉及一种基于知识图谱的公共安全风险评估方法。


背景技术:

1、随着社会发展的不断进步,涉及公共安全的知识和数据呈现出不断增长的态势。为了更好地将这些数据分析利用起来,构建公共安全领域的知识图谱成为一种有效的且可行的手段。

2、知识图谱是一种用图模型来描述知识和建模世界万物之间的关联关系的技术方法。知识图谱由节点和边组成。节点是实体或是抽象的概念。边是实体的属性或是实体之间的关系。知识图谱主要分成两大类,一类是通用知识图谱,另一类是垂直领域的知识图谱。当前公共安全领域的数据存在着“信息分散、数据量大、难以处理”的现象,公共安全领域知识图谱的建立能够有效提供全新的相关数据组织方式的管理、应用方式。

3、在知识图谱的构建过程中,实体抽取和关系抽取是非常重要的一个子任务。实体抽取又称为命名实体识别,目的是能将文本中不同类型的实体识别出来。目前较新的一种命名实体识别方法是基于深度学习的方法。基于rnn(recurrent neural network,循环神经网络)的一系列模型在处理序列数据是表现较好。lstm(long short term memory,长短期记忆)和gru通过设置门结构对历史信息进行记忆或遗忘,显著提高了学习能力和泛化能力。

4、bert(bidirectional encoder representations from transformers)是一种预训练的语言模型,由google开发。通过双向transformer结构,bert在大规模文本语料上进行预训练,从而获得深层次的语境词向量表示。这种预训练使bert在各种自然语言处理任务上取得了显著的性能提升,如情感分析、问答系统和命名实体识别。bert的创新之处在于通过遮蔽输入文本中的部分词汇来预测其余词汇,从而实现对上下文信息的全面学习。


技术实现思路

1、本发明的目的是针对现有技术的不足,提出了一种基于知识图谱的公共安全风险评估方法。

2、第一方面,提供了一种基于知识图谱的公共安全风险评估方法,包括:

3、步骤1、获取公共安全有关的原始数据;

4、步骤2、对所述原始数据进行清洗和提取;

5、步骤3、使用基于中文字形和拼音嵌入的bert-crf语言模型进行实体抽取;

6、步骤4、进行关系抽取和属性抽取,得到rdf三元组;

7、步骤5、将所述三元组存储到图数据库中,实现公共安全知识图谱的构建;

8、步骤6、根据具体的请求,使用查询语言在知识图谱中调用,识别潜在的风险。

9、作为优选,步骤1中,所述原始数据包括报警记录、言论数据和相关人员信息;所述原始数据包含了知识图谱的实体、关系和属性信息;所述原始数据分为结构化数据、半结构化数据和非结构化数据。

10、作为优选,步骤3和步骤4中,对所述结构化数据,使用直接映射和r2rml的方法抽取实体和关系;对所述半结构化数据和非结构化数据,使用bert-crf模型抽取实体,之后再抽取出关系和属性。

11、作为优选,步骤3和步骤4中,所述bert-crf模型包括输入、bert层、crf层和输出;所述输入是输入序列的单词索引,所述输出是对应于输入序列的每个单词的标签索引;所述bert层用于得到所述输入序列对应的发射矩阵;所述crf层用于添加约束以保证预测结果有效,所述约束在训练过程中被crf层自动学习得到。

12、作为优选,步骤5中,所述图数据库为neo4j。

13、作为优选,步骤3和步骤4中,crf层的crf损失函数包含了真实路径得分和所有可能路径的得分,在训练过程中,模型会不断更新,从而使真实路径得分占比增大。

14、作为优选,步骤6包括:

15、步骤6.1、用户发起提问,将其转化为结构化查询语句,通过使用文字模糊匹配得到一些列内容;

16、步骤6.2、从图数据库中查询得到实体与关系,匹配到公共安全知识图谱中对应的实体与关系;

17、步骤6.3、向用户返回查询结果,并通过持续的人机交互反馈发现知识库的不完善领域,不断优化更新知识库。

18、第二方面,提供了一种执行第一方面任一所述基于知识图谱的公共安全风险评估方法的系统,包括:

19、获取模块,用于获取公共安全有关的原始数据;

20、清洗模块,用于对所述原始数据进行清洗和提取;

21、第一提取模块,用于使用基于中文字形和拼音嵌入的bert-crf语言模型进行实体抽取;

22、第二提取模块,用于进行关系抽取和属性抽取,得到rdf三元组;

23、存储模块,用于将所述三元组存储到图数据库中,实现公共安全知识图谱的构建;

24、识别模块,用于根据具体的请求,使用查询语言在知识图谱中调用,识别潜在的风险。

25、第三方面,提供了一种计算机存储介质,所述计算机存储介质内存储有计算机程序;所述计算机程序在计算机上运行时,使得计算机执行第一方面任一所述基于知识图谱的公共安全风险评估方法。

26、本发明的有益效果是:

27、1.本发明针对公共安全领域的专业特性,基于中文字形和拼音嵌入的bert-crf模型能够将文本数据中的各种类型的实体有效地抽取出来,避免了大量的人工标注过程,显著减少了人工的工作量。

28、2.本发明通过设计模型框架并将其实现,抽取了公共安全数据中的实体、关系和属性,得到了标准化的三元组,再将知识融合、存储,最终构建了公共安全领域的知识图谱,打破了原有的言论数据、报警记录之间的数据壁垒,实现了公共安全数据的整合分析,建立了综合全面的公共安全信息网络。实体之间的关系可有用一种更完善的方法捕捉到,可以有效预测潜在的公共安全风险。知识图谱具有较好的扩展性,可以与实时数据集成,实时监测潜在的安全风险。



技术特征:

1.一种基于知识图谱的公共安全风险评估方法,其特征在于,包括:

2.根据权利要求1所述的基于知识图谱的公共安全风险评估方法,其特征在于,步骤1中,所述原始数据包括报警记录、言论数据和相关人员信息;所述原始数据包含了知识图谱的实体、关系和属性信息;所述原始数据分为结构化数据、半结构化数据和非结构化数据。

3.根据权利要求2所述的基于知识图谱的公共安全风险评估方法,其特征在于,步骤3和步骤4中,对所述结构化数据,使用直接映射和r2rml的方法抽取实体和关系;对所述半结构化数据和非结构化数据,使用bert-crf模型抽取实体,之后再抽取出关系和属性。

4.根据权利要求3所述的基于知识图谱的公共安全风险评估方法,其特征在于,步骤3和步骤4中,所述bert-crf模型包括输入、bert层、crf层和输出;所述输入是输入序列的单词索引,所述输出是对应于输入序列的每个单词的标签索引;所述bert层用于得到所述输入序列对应的发射矩阵;所述crf层用于添加约束以保证预测结果有效,所述约束在训练过程中被crf层自动学习得到。

5.根据权利要求4所述的基于知识图谱的公共安全风险评估方法,其特征在于,步骤5中,所述图数据库为neo4j。

6.根据权利要求5所述的基于知识图谱的公共安全风险评估方法,其特征在于,步骤3和步骤4中,crf层的crf损失函数包含了真实路径得分和所有可能路径的得分,在训练过程中,模型会不断更新,从而使真实路径得分占比增大。

7.根据权利要求5所述的基于知识图谱的公共安全风险评估方法,其特征在于,步骤6包括:

8.一种执行权利要求1至7任一所述基于知识图谱的公共安全风险评估方法的系统,其特征在于,包括:

9.一种计算机存储介质,其特征在于,所述计算机存储介质内存储有计算机程序;所述计算机程序在计算机上运行时,使得计算机执行权利要求1至7任一所述基于知识图谱的公共安全风险评估方法。


技术总结
本发明涉及一种基于知识图谱的公共安全风险评估方法,包括:获取公共安全有关的原始数据并进行清洗和提取;使用基于中文字形和拼音嵌入的BERT‑CRF语言模型进行实体抽取;进行关系抽取和属性抽取,得到RDF三元组;将所述三元组存储到图数据库中,实现公共安全知识图谱的构建;根据具体的请求,使用查询语言在知识图谱中调用,识别潜在的风险。本发明的有益效果是:本发明打破数据壁垒,实现了公共安全数据的整合分析,建立了综合全面的公共安全信息网络。实体之间的关系可有用一种更完善的方法捕捉到,可以有效预测潜在的公共安全风险。知识图谱具有较好的扩展性,可以与实时数据集成,实时监测潜在的安全风险。

技术研发人员:王渊博,翁文勇
受保护的技术使用者:浙江大学
技术研发日:
技术公布日:2024/5/29
转载请注明原文地址:https://win.8miu.com/read-1152947.html

最新回复(0)