条例文本到监管语言的转化方法及系统

专利检索2025-12-16  6


本发明涉及跨领域服务监管语言转化技术,特别是一种服务监管条例文本到监管语言的转化方法及系统。


背景技术:

1、随着智能产业和数字经济的蓬勃发展,数字技术深刻地影响着传统产业的转型升级,催生了众多的新产业、新业态和新模式。数字服务极大改变了人们的生活方式,在医疗、交通、金融、教育等行业都有显著的发展成果。但是由于监管的缺失,出现了一系列服务的合规、风险、质量问题。如在互联网医疗当中,存在着医务人员、医疗机构资质不合规的问题;诊疗过程存在“先药后方”、人工智能开处方、冒名诊疗等医疗乱象。在数字交通领域网约车问题频发,订单过程中网约车司机服务态度差、估计绕路等不规范行为屡见不鲜,而且网约车行业运行基本情况显示,网约车订单合规率在90%以上的平台较少。

2、为了应对这些风险与挑战,相关监管部门制定监管政策,加强对数字服务的监管。现有的监管规则数量多、更新快,但监管规则从出台到落地的过程中不仅面临着对人力、物力、财力的重大需求,还存在执行困难的情况。而且数字服务涉及的技术复杂,相对于传统服务行业监管难度更大,如何利用人工智能等计算机技术对它进行智能、高效的监管是亟待解决的问题。

3、随着监管科技的发展,一系列监管系统应运而生。现有监管系统都是聚集于单个垂直领域构建,具有领域特定的特性,正因如此,它们无法快速地理解其他领域的监管需求,难以重用。随着数字服务涉及到的领域越来越多,若针对每个领域研制一套监管系统非常麻烦,效率低下。为实现跨领域的服务的自动监管,满足不同数字服务领域多变的监管需求,本发明实施例需要从监管规则入手,采用技术手段对监管规则进行数字化处理,将其转化为计算机可理解的语言。数字化的监管规则使机器和人能够快速、充分地理解监管规则,避免出现信息偏差,从而有效提升监管效率、降低监管成本,为构建共性的监管系统做好前提准备。然而,监管规则数字化有以下问题需要考虑:

4、(1)现有模型在处理自然语言法律规则文件时仍存在不足。对于法律文件来说,自然语言的表述更简洁,在文中易省略部分词语,对人类阅读来说较容易理解,但对于模型来说很难根据上下文提取隐含的信息。同时,虽然大语言模型已经在大型文本语料库上训练,但如果没有经过特定的微调,可能导致机器难以理解规则中蕴含的领域专业知识。

5、(2)现有的监管领域规则语言无法满足跨领域的监管需求。现有的规则语言、监管领域特定语言对用户的计算机专业技术知识要求高,对于监管系统有特定的技术架构要求。这些语言往往聚焦于实现特定领域的业务逻辑,而较少考虑监管合规问题,缺少一种共性语言统一描述各领域下的法律规则文本。

6、(3)自然语言到规则语言转化难度高。由于政策文件繁多,同时法律法规也在不断地更新完善,传统规则的数字化需要计算机人员理解自然语言规则后进行解析编码,两者之间的翻译非常困难,缺少自动转化工具,人工编码规则难度大,效率低下,时间、金钱成本高。


技术实现思路

1、本发明所要解决的技术问题是,针对现有技术不足,提供一种条例文本到监管语言的转化方法及系统,为服务监管的自动化、智能化奠定了基础。

2、为解决上述技术问题,本发明所采用的技术方案是:一种条例文本到监管语言的转化方法,包括以下步骤:

3、s1、定义监管语言要素和监管语言语法结构;

4、s2、根据定义的监管语言要素和监管语言语法结构所需的信息,将条例文本到监管语言生成流程划分为多个条例文本预处理环节和一个监管语言生成环节;

5、s3、构建各个环节所需的微调数据集,以及构建政策条例问答数据集;

6、s4、基于各个环节的微调数据集和政策条例问题数据集,训练各个环节的大语言模型,得到各个环节的子模型;

7、s5、根据各个环节条例预处理的问题需求,设计提示模板,将提示模板与新输入的条例对应作为各个子模型的输入,得到各个子模型的输出;

8、s6、将各个子模型的输出通过设计的提示模板整合成提示语句,将所述提示语句作为大语言模型的输入,得到新输入条例对应的监管语言。

9、本发明通过深入分析多领域下条例的特点和需求,提取出了多领域下条例的共性信息,根据此共性信息精确定义了监管语言要素和语法结构。通过对监管语言进行精细定义,确保条例文本的监管语言要素信息能够完整并正确表达原本条例文本的信息,确保转化后的跨领域监管语言的在多领域下表达的准确性和可理解性。本发明针对条例文本到监管语言转化的复杂性,通过划分不同的处理环节,可以更有效地对问题进行分解,利用专门的数据集进行针对性训练,保证每一部分的转化效果,从而提高整体转化的效率和效果,提高了语言转化效率和模型训练的精度。通过将整个转化过程划分为多个预处理环节和一个生成环节,可以针对不同环节的特点进行专门的模型训练和优化,提高整个转换方法的工作效率和输出质量。本发明在大语言模型的基础上,通过微调和训练,模型能够更加深入地学习和掌握特定领域的知识和语言表达方式,从而在实际推理应用中表现出更优的性能,提升了模型对具体条例文本理解和转化的能力。通过构建专门的微调数据集和政策条例问答数据集,可以让大语言模型更好地理解条例文本的具体内容并提取在转换过程中所需的信息,从而提高转化的准确性。提示模板为模型提供了一种有效的信息框架,帮助模型更好地理解输入和输出的结构和要求,从而能够更加高效准确地完成条例文本到监管语言的转化。使用指令微调后的数据集增强了大语言模型对新条例文本的处理能力。通过设计合适的提示模板,采取有效的提示策略,简单明了的表达子环节任务的需求,更利于大语言模型在此环节中发挥作用。

10、步骤s1中,所述监管语言要素包括实体、属性、约束、监管措施、覆盖范围、前提条件和外部依据;所述实体指规则中的主体成分,包括被监管对象、监管者和执行者;所述属性是指实体具有的特征;所述约束用于描述实体或属性必须满足的规范;所述监管措施用于描述如何执行规则以及不遵守法规可能受到的处罚;所述覆盖条件用于声明规则的适用的实体,明确规则监管的边界;所述前提条件用于描述规则执行前需要满足的先行条件、背景情况;所述外部依据用于声明条例中所提及的第三方文件、标准、指标。本发明通过对监管语言进行精细定义,确保条例文本的监管语言要素信息能够完整并正确表达原本条例文本的信息,确保转化后的跨领域监管语言的在多领域下表达的准确性和可理解性。

11、步骤s1中,所述监管语言语法结构包括元数据语法块中定义条例中出现的实体、属性和外部依据,动作语法块中定义条例中的实体的动作以及条例语法块中使用元数据语法块和动作语法块中定义的实体和动作。本发明以结构化的形式精确地定义和分析条例中的实体、属性、外部依据和动作。这种分解使得对条例的理解更加清晰,减少理解上的歧义,更便于机器的理解。

12、步骤s2中,所述预处理环节为四个,分别为可自动化监管条例识别环节,监管条例分类环节,监管条例文本规范化环节以及监管条例实体识别环节。本发明提高了语言转化效率和模型训练的精度。通过将整个转化过程划分为多个预处理环节和一个生成环节,可以针对不同环节的特点进行专门的模型训练和优化,提高整个转换方法的工作效率和输出质量。

13、步骤s3中,所述可自动化监管条例识别环节对应第一微调数据集,所述第一微调数据集包括条例内容和是否可自动化监管的[是,否]标签;所述监管条例分类环节对应第二微调数据集,所述第二微调数据集的数据内容为<条例内容,对应的条例监管类别>;所述监管条例文本规范化环节对应第三微调数据集,所述第三微调数据集的数据内容为<原本条例内容,对应规范化后的条例>;所述监管条例实体识别环节对应第四微调数据集,所述第四微调数据集的数据内容为<条例文本,条例实体json信息>。本发明针对不同环节的特点,构建不同子环节对应的微调数据集,可以让大语言模型更好地理解条例文本的具体内容并提取在转换过程中所需的信息,从而提高转化的准确性。每个子环节使用专门的微调数据集进行模型训练和优化,提高整个转换方法的工作效率和输出质量。

14、步骤s3中,按照<条例,问题,答案>的方式组合,构建政策条例问答数据集。本发明构建的政策条例问答数据集能够实现对条例文本深度理解和解析。每个条例通过与相关问题和答案配对,形成明确的上下文关系,这种<条例,问题,答案>的组合方式,有助于大语言模型抓住条例的核心要义,能够理解条例背后的政策目的、适用场景等等。

15、步骤s5的具体实现过程包括:

16、将新输入的条例融入提示模板后,输入第一子模型中,得到条例的是否可自动化监管信息;若为不可自动化监管条例,则结束;

17、将新输入的条例融入提示模板后,输入第二子模型中,得到条例的监管类别分类信息;

18、将监管类别分类信息和条例内容输入第三子模型中,得到规范化条例文本信息;

19、将规范化条例文本信息输入第四子模型中,得到条例的实体信息;

20、其中,第一子模型、第二子模型、第三子模型和第四子模型分别为四个预处理环节对应的子模型。

21、本发明设计针对性的提示模板,并在每个预处理环节根据条例预处理的问题需求进行个性化设置,这种方法能够让子模型更好地理解和处理特定的输入。

22、步骤s6的具体实现过程包括:将条例监管类别分类信息、规范化条例文本信息和条例实体信息融入设计的提示模板中,作为大语言模型的输入,得到新输入条例对应的监管语言。本发明设计针对性的提示模板,将多个子环节获取得到的信息,按提示模板的格式输入给大语言模型,能够更加准确的给出在监管语言转化过程中的所需的信息。

23、所述大语言模型为chatgpt,gpt4,chatglm中的一种,本发明的大语言模型也可以选用其余模型。

24、作为一个发明构思,本发明还提供了一种条例文本到监管语言的转化系统,包括存储器、处理器及存储在存储器上的计算机程序;所述处理器执行所述计算机程序,以实现权上述方法的步骤。

25、与现有技术相比,本发明所具有的有益效果为:为实现监管智能化,本发明设计了跨领域服务监管语言,用于数字化监管规则,解决跨领域监管规则难以规范化及定义、无法满足跨领域监管需求以及转化难度高的问题。同时,基于大语言模型(large languagemodel,llm)构造了监管语言转化工具,实现从监管规则到监管语言的自动转化。本发明的贡献如下:

26、首先,本发明收集来自不同领域的监管规则文件,分析规则的内容,并对它进行分类。本发明拆分规则的基本组成部分,提取了跨领域监管规则中的共性要素,作为规则语言设计的基础。

27、其次,本发明制定了一套通用的规则表达规范,详细设计了面向监管的跨领域服务监管语言cdsrl,明确给出了监管的实体、行为以及约束条件等的定义。cdsrl有很好的可扩展性,支持用户自定义领域函数。通过监管语言可以实现突出监管重点,实现监管规则数字化、规范化。

28、最后,本发明构建了基于大语言模型的两阶段监管语言自动转化工具,微调训练了监管规则识别分类模型和监管语言转化模型。监管规则识别分类模型能识别出可自动监管的规则,准确率达89.91%,在监管重点类别分类准确率上达到81.72%。监管语言转化模型能对不同领域、类别的自然语言监管规则进行规范化模版处理,并提取规则中cdsrl语言的共性要素,完成监管规则到cdsrl语言代码的自动转化。


技术特征:

1.一种条例文本到监管语言的转化方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的条例文本到监管语言的转化方法,其特征在于,步骤s1中,所述监管语言要素包括实体、属性、约束、监管措施、覆盖范围、前提条件和外部依据;所述实体指规则中的主体成分,包括被监管对象、监管者和执行者;所述属性是指实体具有的特征;所述约束用于描述实体或属性必须满足的规范;所述监管措施用于描述如何执行规则以及不遵守法规可能受到的处罚;所述覆盖条件用于声明规则的适用的实体,明确规则监管的边界;所述前提条件用于描述规则执行前需要满足的先行条件、背景情况;所述外部依据用于声明条例中所提及的第三方文件、标准、指标。

3.根据权利要求1所述的条例文本到监管语言的转化方法,其特征在于,步骤s1中,所述监管语言语法结构包括元数据语法块中定义条例中出现的实体、属性和外部依据,动作语法块中定义条例中的实体的动作以及条例语法块中使用元数据语法块和动作语法块中定义的实体和动作。

4.根据权利要求1所述的条例文本到监管语言的转化方法,其特征在于,步骤s2中,所述预处理环节为四个,分别为可自动化监管条例识别环节,监管条例分类环节,监管条例文本规范化环节以及监管条例实体识别环节。

5.根据权利要求4所述的条例文本到监管语言的转化方法,其特征在于,步骤s3中,所述可自动化监管条例识别环节对应第一微调数据集,所述第一微调数据集包括条例内容和是否可自动化监管的[是,否]标签;所述监管条例分类环节对应第二微调数据集,所述第二微调数据集的数据内容为<条例内容,对应的条例监管类别>;所述监管条例文本规范化环节对应第三微调数据集,所述第三微调数据集的数据内容为<原本条例内容,对应规范化后的条例>;所述监管条例实体识别环节对应第四微调数据集,所述第四微调数据集的数据内容为<

6.根据权利要求1所述的条例文本到监管语言的转化方法,其特征在于,步骤s3中,按照<条例,问题,答案>的方式组合,构建政策条例问答数据集。

7.根据权利要求1所述的条例文本到监管语言的转化方法,其特征在于,步骤s5的具体实现过程包括:

8.根据权利要求7所述的条例文本到监管语言的转化方法,其特征在于,步骤s6的具体实现过程包括:将条例监管类别分类信息、规范化条例文本信息和条例实体信息融入设计的提示模板中,作为大语言模型的输入,得到新输入条例对应的监管语言。

9.根据权利要求1~8之一所述的条例文本到监管语言的转化方法,其特征在于,所述大语言模型为chatgpt,gpt4,chatglm中的一种。

10.一种条例文本到监管语言的转化系统,包括存储器、处理器及存储在存储器上的计算机程序;其特征在于,所述处理器执行所述计算机程序,以实现权利要求1~9之一所述方法的步骤。


技术总结
本发明公开了一种条例文本到监管语言的转化方法及系统,定义监管语言要素和监管语言语法结构;根据定义的监管语言要素和监管语言语法结构所需的信息,将条例文本到监管语言生成流程划分为多个条例文本预处理环节和一个监管语言生成环节;构建各个环节所需的微调数据集以及政策条例问答数据集;基于各环节的微调数据集和政策条例问题数据集,训练各环节的大语言模型,得到各环节的子模型;根据各环节条例预处理的问题需求,设计提示模板,将提示模板与新输入的条例对应作为各子模型的输入,得到各子模型的输出;将各子模型的输出通过设计的提示模板整合成提示语句,将提示语句输入大语言模型,得到条例对应的监管语言。本发明实现了监管智能化。

技术研发人员:邝砾,王钊文,谢琪,张欢,尹建伟,邓水光
受保护的技术使用者:中南大学
技术研发日:
技术公布日:2024/5/29
转载请注明原文地址:https://win.8miu.com/read-1159069.html

最新回复(0)