本发明涉及文字智慧处理,具体涉及一种基于自然语言处理的法律文字自动纠错方法、装置、电子设备及存储介质。
背景技术:
1、目前,法律文书是执法机关在执法过程中的重要工具,它们不仅具有法律效力,而且是执法活动中的必要产物。执法机关在对法律案件进行侦查、拘留、执行逮捕和预审等活动中,需要制作相应的法律文书。这些文书在司法实践中具有重要的作用,对于维护社会稳定和促进司法公正具有重要意义。
2、然而,由于文书内容繁琐、制作程序复杂,很容易出现低级错误或明显瑕疵,这些问题可能会影响文书的法律效力,严重损害司法公信力。因此,提高公安法律文书质量是非常必要的。
3、进一步的,法律文书中包含大量半结构化、非结构化信息,例如涉案人员信息、涉案物品信息以及法律法规信息等。这些信息很难通过关键字检测来完整提取必要的有效信息,需要专业法制部门人员对文书数据进行查验和录入,这一过程非常费时费力,对处理人的职业素养也有极高的要求。
4、因此,开发一种高效的技术手段来提高文书质量和减轻承办法制部门文书校对工作负担,对于提高文书制作效率和减少错误非常必要。
技术实现思路
1、有鉴于此,有必要提供一种基于自然语言处理的法律文字自动纠错方法、装置、电子设备及存储介质,用以解决现有技术中法律文字中对非结构化或半结构化数据通过人工识别纠错耗时费力的技术问题。
2、为了解决上述技术问题,一方面,本发明提供了一种基于自然语言处理的法律文字自动纠错方法,包括:
3、基于预设的nlp模型对原始法律文书数据进行识别,提取所述原始法律文书数据中关键词以构建文本标签集;
4、根据所述原始法律文书数据和所述文本标签集构建plsa分类模型,确定纠错类型节点,根据所述plsa分类模型和所述纠错类型节点对所述原始法律文书数据、所述文本标签集和所述纠错类型节点进行关联映射;
5、确定入组规则文本,基于所述预设的nlp模型对所述入组规则文本进行识别得到入组标签集;
6、匹配所述文本标签集和所述入组标签集,根据所述文本标签集和所述纠错类型节点的关联关系于所述plsa分类模型的隐含空间中确定所述入组标签集对应的特定纠错类型节点,提取所述特定纠错类型节点所关联映射的原始法律文书数据,得到入组法律文书数据。
7、在可能的一些实施方式中,所述关键词至少包括如下几种:法律法条、执行主体、时间、地点、场景名称、认定结果。
8、在可能的一些实施方式中,所述根据所述原始法律文书数据和所述文本标签集构建plsa分类模型,包括:
9、根据关键词中的错误类型、错误特点以及所述原始法律文书数据建立错误类型、错误特点以及所述原始法律文书数据中被提取部分文字数据一一关联的plsa分类模型。
10、在可能的一些实施方式中,所述确定纠错类型节点,根据所述plsa分类模型和所述纠错类型节点对所述原始法律文书数据、所述文本标签集和所述纠错类型节点进行关联映射,包括:
11、根据所述关键词中的错误类型设置纠错类型节点;
12、基于预设的plsa概率图模型构建所述纠错类型节点与原始法律文书数据的双层结构的概率分布关系,所述双层结构的概率分布关系包括若干不同的概率关系;
13、将关联最强的概率关系作为所述原始法律文书数据和所述纠错类型节点的关联映射。
14、在可能的一些实施方式中,所述确定入组规则文本,基于所述预设的nlp模型对所述入组规则文本进行识别得到入组标签集,包括:
15、将入组规则确定为至少包括优选规则、排除规则及备注规则;
16、将符合优选规则同时不符合排除规则的原始法律文书数据,或者,符合备注规则的原始法律文书数据,列为入组规则文本;
17、将所有的入组规则文本组合为入组标签集。
18、在可能的一些实施方式中,所述根据所述文本标签集和所述纠错类型节点的关联关系于所述plsa分类模型的隐含空间中确定所述入组标签集对应的特定纠错类型节点,包括:
19、根据所述文本标签集和所述纠错类型节点的关联关系确定入组需求;
20、根据所述入组需求对入组标签集与文本标签集进行匹配,确定出与入组需求一致的特定纠错类型节点。
21、在可能的一些实施方式中,方法还包括:
22、采用datax工具对所述入组法律文书数据进行同步,将所述入组法律文书数据中的结构化数据置入标准数据表;
23、根据每一入组法律文书数据中所包含半结构化数据与非结构化数据相对于标准数据表的匹配值,拆分半结构化数据与非结构化数据并分别置入所述标准数据表中。
24、在可能的一些实施方式中,方法还包括:
25、对基于入组法律文书数据所构建的每一标准数据表进行值域校验,对存在超限数据的标准数据表进行剔除;
26、对完成值域校验的每一标准数据表进行逻辑校验,对存在违背法律相关逻辑的缺陷数据的标准数据表进行剔除。
27、另一方面,本发明还提供了一种基于自然语言处理的法律文字自动纠错装置,包括:
28、文本标签模块,用于基于预设的nlp模型对原始法律文书数据进行识别,提取所述原始法律文书数据中关键词以构建文本标签集;
29、关联映射模块,用于根据所述原始法律文书数据和所述文本标签集构建plsa分类模型,确定纠错类型节点,根据所述plsa分类模型和所述纠错类型节点对所述原始法律文书数据、所述文本标签集和所述纠错类型节点进行关联映射;
30、入组规则模块,用于确定入组规则文本,基于所述预设的nlp模型对所述入组规则文本进行识别得到入组标签集;
31、数据提取模块,用于匹配所述文本标签集和所述入组标签集,根据所述文本标签集和所述纠错类型节点的关联关系于所述plsa分类模型的隐含空间中确定所述入组标签集对应的特定纠错类型节点,提取所述特定纠错类型节点所关联映射的原始法律文书数据,得到入组法律文书数据。
32、另一方面,本发明还提供了一种电子设备,包括存储器和处理器,其中,
33、所述存储器,用于存储程序;
34、所述处理器,与所述存储器耦合,用于执行所述存储器中存储的所述程序,以实现上述任意一种可能的实施方式中所述的基于自然语言处理的法律文字自动纠错方法中的步骤。
35、另一方面,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行任上述任意一种可能的实施方式中所述的基于自然语言处理的法律文字自动纠错方法中的步骤。
36、采用上述实现方式的有益效果是:本发明首先,基于预设的nlp模型对原始法律文书数据进行识别,提取原始法律文书数据中关键词以构建文本标签集;其次,根据原始法律文书数据和文本标签集构建plsa分类模型,确定纠错类型节点,根据plsa分类模型和纠错类型节点对原始法律文书数据、文本标签集和纠错类型节点进行关联映射;然后,确定入组规则文本,基于预设的nlp模型对入组规则文本进行识别得到入组标签集;最后,匹配文本标签集和入组标签集,根据文本标签集和纠错类型节点的关联关系于plsa分类模型的隐含空间中确定入组标签集对应的特定纠错类型节点,提取特定纠错类型节点所关联映射的原始法律文书数据,得到入组法律文书数据。
37、总结而言,本发明通过采用自然语言处理方式处理文书数据与入组规则文本,获得文本标签集合与入组标签集合,进而采用plsa分类模型处理文书数据与文本标签集合,获得二者与各类型节点间基于概率分布的关联映射,再通过匹配入组标签集合与特定类型节点,提取得到所需的入组文书数据,完成对包括非结构化数据的原始文书数据进行入组筛选,过程无需人工介入,准确率高。
1.一种基于自然语言处理的法律文字自动纠错方法,其特征在于,
2.根据权利要求1所述的基于自然语言处理的法律文字自动纠错方法,其特征在于,所述关键词至少包括如下几种:法律法条、执行主体、时间、地点、场景名称、认定结果。
3.根据权利要求1所述的基于自然语言处理的法律文字自动纠错方法,其特征在于,所述根据所述原始法律文书数据和所述文本标签集构建plsa分类模型,包括:
4.根据权利要求3所述的基于自然语言处理的法律文字自动纠错方法,其特征在于,所述确定纠错类型节点,根据所述plsa分类模型和所述纠错类型节点对所述原始法律文书数据、所述文本标签集和所述纠错类型节点进行关联映射,包括:
5.根据权利要求1所述的基于自然语言处理的法律文字自动纠错方法,其特征在于,所述确定入组规则文本,基于所述预设的nlp模型对所述入组规则文本进行识别得到入组标签集,包括:
6.根据权利要求1所述的基于自然语言处理的法律文字自动纠错方法,其特征在于,所述根据所述文本标签集和所述纠错类型节点的关联关系于所述plsa分类模型的隐含空间中确定所述入组标签集对应的特定纠错类型节点,包括:
7.根据权利要求1所述的基于自然语言处理的法律文字自动纠错方法,其特征在于,方法还包括:
8.根据权利要求1所述的基于自然语言处理的法律文字自动纠错方法,其特征在于,方法还包括:
9.一种基于自然语言处理的法律文字自动纠错装置,其特征在于,包括:
10.一种电子设备,其特征在于,包括存储器和处理器,其中,