本申请涉及计算机,尤其涉及人工智能,具体涉及一种数据处理方法、一种数据处理装置、一种计算机设备、一种计算机可读存储介质以及一种计算机程序产品。
背景技术:
1、关系抽取模型可用于确定自然语言文本(可简称为文本,即本申请实施例中的实例)中实体对之间的关系,目前,在训练关系抽取模型时,发现关系抽取模型对支持集中的噪声数据(即支持集中真实所属的关系类别与被标注的关系类别不相同的支持实例)非常敏感,导致训练好的关系抽取模型的准确性较差,容易产生错误的预测结果。
技术实现思路
1、本申请实施例提供了一种数据处理方法、装置及设备、介质、产品,旨在自动修正支持集中的噪声数据,来提升训练好的关系抽取模型的准确性,进而通过训练好的关系抽取模型对目标实例进行更准确的关系类别预测。
2、一方面,本申请实施例提供了一种数据处理方法,该方法包括:
3、获取第一学习任务,第一学习任务包括支持集和询问集,支持集中包含n种第一关系类别,每种第一关系类别下具备k个支持实例,每个支持实例具备各自的真实关系标签和标注关系标签,支持实例的真实关系标签用于指示支持实例真实所属的第一关系类别,支持实例的标注关系标签用于指示支持实例被标注的第一关系类别;询问集中包含n种第一关系类别,每种第一关系类别下具备q个询问实例,每个询问实例具备各自的真实关系标签,询问实例的真实关系标签用于指示询问实例真实所属的第一关系类别;n、q、k均为正整数;
4、调用关系抽取模型按照支持集中各个支持实例之间的实例相关性,对支持集中各个支持实例的标注关系标签进行修正处理,得到标签修正结果,并基于标签修正结果和支持集中各个支持实例的特征,生成每种第一关系类别的关系原型表示;
5、调用关系抽取模型基于询问集中各个询问实例的特征分别与每种第一关系类别的关系原型表示之间的相似性,对询问集中各个询问实例进行关系预测处理,得到询问集中各个询问实例的第一预测关系标签;
6、基于支持集中各个支持实例的真实关系标签,以及询问集中各个询问实例的真实关系标签和第一预测关系标签,训练关系抽取模型;训练好的关系抽取模型用于预测目标实例所属的关系类别。
7、另一方面,本申请实施例提供了一种数据处理装置,该装置包括:
8、获取单元,用于获取第一学习任务,第一学习任务包括支持集和询问集,支持集中包含n种第一关系类别,每种第一关系类别下具备k个支持实例,每个支持实例具备各自的真实关系标签和标注关系标签,支持实例的真实关系标签用于指示支持实例真实所属的第一关系类别,支持实例的标注关系标签用于指示支持实例被标注的第一关系类别;询问集中包含n种第一关系类别,每种第一关系类别下具备q个询问实例,每个询问实例具备各自的真实关系标签,询问实例的真实关系标签用于指示询问实例真实所属的第一关系类别;n、q、k均为正整数;
9、处理单元,用于调用关系抽取模型按照支持集中各个支持实例之间的实例相关性,对支持集中各个支持实例的标注关系标签进行修正处理,得到标签修正结果,并基于标签修正结果和支持集中各个支持实例的特征,生成每种第一关系类别的关系原型表示;
10、处理单元,还用于调用关系抽取模型基于询问集中各个询问实例的特征分别与每种第一关系类别的关系原型表示之间的相似性,对询问集中各个询问实例进行关系预测处理,得到询问集中各个询问实例的第一预测关系标签;
11、处理单元,还用于基于支持集中各个支持实例的真实关系标签,以及询问集中各个询问实例的真实关系标签和第一预测关系标签,训练关系抽取模型;训练好的关系抽取模型用于预测目标实例所属的关系类别。
12、另一方面,本申请实施例提供了一种计算机设备,该计算机设备包括:
13、处理器,用于加载并执行计算机程序;
14、计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,该计算机程序被处理器执行时,实现上述数据处理方法。
15、另一方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,该计算机程序适于由处理器加载并执行上述数据处理方法。
16、另一方面,本申请实施例提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序被处理器执行时,实现上述数据处理方法。
17、本申请实施例,可获取第一学习任务,第一学习任务包括支持集和询问集;调用关系抽取模型按照支持集中各个支持实例之间的实例相关性,对支持集中各个支持实例的标注关系标签进行修正处理,得到标签修正结果。可见,在本申请实施例中,关系抽取模型针对支持集进行标签的修正处理,该修正处理能够自动地修正支持集中的噪声标签(即不准确的标注关系标签),从而减小支持集中的噪声数据(即支持集中真实所属的关系类别与被标注的关系类别不相同的支持实例)对关系抽取模型的影响。基于标签修正结果和支持集中各个支持实例的特征,生成每种第一关系类别的关系原型表示;并调用关系抽取模型基于询问集中各个询问实例的特征分别与每种第一关系类别的关系原型表示之间的相似性,对询问集中各个询问实例进行关系预测处理,得到询问集中各个询问实例的第一预测关系标签;基于支持集中各个支持实例的真实关系标签,以及询问集中各个询问实例的真实关系标签和第一预测关系标签,训练关系抽取模型;训练好的关系抽取模型用于预测目标实例所属的关系类别。可见,在支持集中的标注关系标签已被修正处理的前提下对关系抽取模型进行训练,有利于提升关系抽取模型的鲁棒性(可用于反映针对支持集中噪声数据的抗干扰能力),进而提升训练好的关系抽取模型的准确性,使得能够通过训练好的关系抽取模型对目标实例进行准确的关系类别预测。
1.一种数据处理方法,其特征在于,包括:
2.如权利要求1所述的方法,其特征在于,所述关系抽取模型包括标签修正模块,所述标签修正模块包括图神经网络子层和迭代修正子层;
3.如权利要求2所述的方法,其特征在于,所述支持集中各个支持实例在所述关系表示空间中具备各自的关系特征表示;
4.如权利要求3所述的方法,其特征在于,所述支持集中包含标注关系标签n,所述支持集中共有m个支持实例具备所述标注关系标签n,所述m个支持实例中的任一个表示为支持实例m;n为小于或者等于n的正整数,m为小于或者等于m的正整数;
5.如权利要求3所述的方法,其特征在于,所述标签传播算法包括标签传播矩阵和类别标签矩阵;所述按照标签传播算法对所述支持集中各个所述支持实例的参考关系标签进行传播处理,得到标签修正结果,包括:
6.如权利要求1所述的方法,其特征在于,所述标签修正结果包括所述支持集中各个支持实例的修正关系标签;第一关系类别n是所述n种第一关系类别中的任一个,n为小于或者等于n的正整数;所述关系抽取模型包括实例编码器和关系分类模块,所述关系分类模块包括编码子层;
7.如权利要求6所述的方法,其特征在于,所述关系分类模块还包括分类子层,所述分类子层包括每种第一关系类别的关系原型表示;
8.如权利要求2所述的方法,其特征在于,所述关系抽取模型还包括实例编码器;所述调用所述图神经网络子层,基于所述支持集中各个支持实例之间的实例相关性,将所述支持集中各个支持实例映射至关系表示空间,包括:
9.如权利要求1所述的方法,其特征在于,所述关系抽取模型包括标签修正模块及关系分类模块,所述关系分类模块包括编码子层,所述标签修正模块包括图神经网络子层;
10.如权利要求9所述的方法,其特征在于,第一关系类别n是所述n种第一关系类别中的任一个,n为小于或者等于n的正整数;所述关系抽取模型还包括实例编码器;所述方法还包括:
11.如权利要求9所述的方法,其特征在于,所述编码子层需采用多个学习任务下的第一标签差异进行训练;
12.如权利要求1所述的方法,其特征在于,所述获取第一学习任务,包括:
13.如权利要求12所述的方法,其特征在于,所述方法还包括:
14.如权利要求1所述的方法,其特征在于,所述方法包括:
15.一种数据处理装置,其特征在于,包括:
16.一种计算机设备,其特征在于,包括:
17.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序适于被处理器加载并执行如权利要求1-14任一项所述的数据处理方法。
18.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现如权利要求1-14任一项所述的数据处理方法。