本公开涉及数据处理,尤其涉及一种文本评测基准构建方法及装置。
背景技术:
1、近年来,随着大语言模型技术以及计算架构的快速发展,以gpt(generative pre-trained transformer,生成式预训练转换器)为代表的各个大语言模型开始支持从4k个token(词元或词块)到256k个token不等的长序列输入输出,从而具备了直接处理超长文本上下文任务的能力。为了客观准确地评价长文本大模型在实际语言理解等任务中的能力水平,业界需要相对应地构建长文本评测基准。
2、大语言模型的评测基准由测试数据集和评测指标组成。然而,相关技术中所提供的长文本评测基准存在以下问题:文本长度有限,无法实现超长文本大语言模型的客观评测;评测基准的设置方式不合理,无法有效对大语言模型的文本理解能力进行客观评测;评测基准的语言类型存在限制,不能满足针对不同语言种类的大语言模型的使用需求。如何解决这些问题,构建出满足当前需要的超长文本数据集是亟待解决的问题。
技术实现思路
1、有鉴于此,本公开提出了一种文本评测基准构建方法及装置。
2、根据本公开的一方面,提供了一种文本评测基准构建方法,所述方法包括:
3、获取针对每种预设语言的多个第一数据集,所述多个第一数据集包括选择题数据集、问答题数据集、论文数据集和小说数据集中的至少一种,所述预设语言至少包括中文和英文;
4、对各所述第一数据集中的样本进行编辑处理,得到对应的多个样本;
5、根据所述多个样本,构建出文本数据集;
6、以所述文本数据集作为测试数据集,构建文本评测基准,所述文本评测基准用于进行针对支持超过阈值长度的文本的大语言模型的评测;
7、其中,所述文本数据集中包括针对每种预设语言的多个样本,每种预设语言的多个样本具有多种预设长度,每种预设长度均超过所述阈值长度并且每种预设长度的样本的数量大于或等于数量预设值。
8、在一种可能的实现方式中,所述选择题数据集包括多个选择题样本,各所述选择题样本包括一个选择题文本以及针对所述选择题文本的选择题;
9、其中,对各所述第一数据集中的样本进行编辑处理,得到对应的多个样本,包括:
10、根据各所述选择题文本的长度和各所述预设长度,从所述选择题数据集中选择出多个选择题文本并进行随机组合,形成长度与各所述预设长度对应的多个第一文本;
11、对各所述选择题样本中的选择题进行重构,得到对应的重构问题,各所述重构问题为开放式问题,各所述重构问题包括多个重构选项和一个重构题目,各所述重构问题中的重构选项是基于对应的选择题的选择题目和选项构建的陈述句文本,各所述重构问题中重构题目是根据对应的选择题的选择题目构建的问句文本;
12、针对各所述第一文本,随机选择一个目标选择题文本作为所述目标选择题文本对应的目标重构问题的正确选项出处,以及随机选择其余选择题文本分别作为所述目标重构问题的各错误选项的错误选项出处;
13、根据各所述第一文本和该第一文本中所对应目标重构问题、目标重构问题的正确选项出处和错误选项出处,构建出各所述第一文本对应的样本。
14、在一种可能的实现方式中,对各所述第一数据集中的样本进行编辑处理,得到对应的多个样本,还包括:
15、在进行选项出处设置之前,对各所述重构选项的语法进行校准。
16、在一种可能的实现方式中,所述问答题数据集包括多文档问答题数据集,所述多文档问答题数据集包括多个问答题文档,各所述问答题文档是根据多个问答题样本形成的文本,每个所述问答题样本包括一个问答题的问答题目和对应的问答答案;
17、其中,对各所述第一数据集中的样本进行编辑处理,得到对应的多个样本,包括:
18、根据各所述预设长度和各所述问答题文档的长度,选择出所述多文档问答题数据集中的多个问答题文档进行随机排序组合,形成长度与各所述预设长度对应的多个第二文本;
19、随机将各所述第二文本中的一个问答题样本的问答题目和对应的问答答案确定为该第二文本的问题和答案;
20、根据各所述第二文本和各所述第二文本的问题和答案,构建出各所述第二文本对应的样本。
21、在一种可能的实现方式中,所述问答题数据集包括法律问答数据集,所述法律问答数据集包括多个法律案件样本,各所述法律案件样本包括描述法律案件的案件详情文本和对应的判决依据法条;
22、其中,对各所述第一数据集中的样本进行编辑处理,得到对应的多个样本,包括:
23、根据每种所述预设长度从所述法律问答数据集中选择出多个目标法律案件样本;
24、针对各所述目标法律案件样本,根据案件详情文本的长度和所要匹配的预设长度确定出截取长度,根据所述截取长度截取法律中判决依据法条前后的多个法条,并对各所述法条进行重编号得到多个参考法条;
25、针对各所述目标法律案件样本,以对应的多个参考法条和案件详情文本构成上下文问题、以对应的判决依据法条作为上下文问题的答案,构建出对应各所述目标法律案件样本的样本。
26、在一种可能的实现方式中,所述论文数据集包括多个论文,
27、其中,对各所述第一数据集中的样本进行编辑处理,得到对应的多个样本,包括:
28、将各所述论文的正文文本作为总结题题目,以及将各所述总结题题目对应的论文的摘要作为以该总结题题目的总结题答案;
29、根据各所述总结题答案的内容,删掉对应的总结题题目中的相似片段,得到优化后总结题题目;
30、根据各所述优化后总结题题目和对应的总结题答案,构建出对应的样本。
31、在一种可能的实现方式中,所述小说数据集包括多个小说文本,
32、其中,对各所述第一数据集中的样本进行编辑处理,得到对应的多个样本,包括:
33、根据各所述预设长度对各所述小说文本进行段落截取,得到各所述小说文本的总长度与预设长度对应的多个情节段落;
34、删除各所述情节段落中的标题后将多个情节段落乱序拼接,得到针对的各所述小说文本的第四文本;
35、根据各所述第四文本和各所述第四文本中情节段落的正确排序,构建出各所述第四文本对应的样本。
36、在一种可能的实现方式中,所述样本的长度是该样本的字数,所述阈值长度至少大于1.6万。
37、根据本公开的另一方面,提供了一种文本评测基准构建装置,包括:
38、数据获取模块,用于获取针对每种预设语言的多个第一数据集,所述多个第一数据集包括选择题数据集、问答题数据集、论文数据集和小说数据集中的至少一种,所述预设语言至少包括中文和英文;
39、样本编辑模块,用于对各所述第一数据集中的样本进行编辑处理,得到对应的多个样本;
40、数据集构建模块,用于根据所述多个样本,构建出文本数据集;
41、基准构建模块,用于以所述文本数据集作为测试数据集,构建文本评测基准,所述文本评测基准用于进行针对支持超过阈值长度的文本的大语言模型的评测;
42、其中,所述文本数据集中包括针对每种预设语言的多个样本,每种预设语言的多个样本具有多种预设长度,每种预设长度均超过所述阈值长度并且每种预设长度的样本的数量大于或等于数量预设值。
43、在一种可能的实现方式中,所述选择题数据集包括多个选择题样本,各所述选择题样本包括一个选择题文本以及针对所述选择题文本的选择题;其中,样本编辑模块可以包括第一编辑子模块,第一编辑子模块用于:
44、根据各所述选择题文本的长度和各所述预设长度,从所述选择题数据集中选择出多个选择题文本并进行随机组合,形成长度与各所述预设长度对应的多个第一文本;
45、对各所述选择题样本中的选择题进行重构,得到对应的重构问题,各所述重构问题为开放式问题,各所述重构问题包括多个重构选项和一个重构题目,各所述重构问题中的重构选项是基于对应的选择题的选择题目和选项构建的陈述句文本,各所述重构问题中重构题目是根据对应的选择题的选择题目构建的问句文本;
46、针对各所述第一文本,随机选择一个目标选择题文本作为所述目标选择题文本对应的目标重构问题的正确选项出处,以及随机选择其余选择题文本分别作为所述目标重构问题的各错误选项的错误选项出处;
47、根据各所述第一文本和该第一文本中所对应目标重构问题、目标重构问题的正确选项出处和错误选项出处,构建出各所述第一文本对应的样本。
48、在一种可能的实现方式中,对各所述第一数据集中的样本进行编辑处理,得到对应的多个样本,还包括:在进行选项出处设置之前,对各所述重构选项的语法进行校准。
49、在一种可能的实现方式中,所述问答题数据集包括多文档问答题数据集,所述多文档问答题数据集包括多个问答题文档,各所述问答题文档是根据多个问答题样本形成的文本,每个所述问答题样本包括一个问答题的问答题目和对应的问答答案;其中,样本编辑模块可以包括第二编辑子模块,第二编辑子模块用于:
50、根据各所述预设长度和各所述问答题文档的长度,选择出所述多文档问答题数据集中的多个问答题文档进行随机排序组合,形成长度与各所述预设长度对应的多个第二文本;
51、随机将各所述第二文本中的一个问答题样本的问答题目和对应的问答答案确定为该第二文本的问题和答案;
52、根据各所述第二文本和各所述第二文本的问题和答案,构建出各所述第二文本对应的样本。
53、在一种可能的实现方式中,所述问答题数据集包括法律问答数据集,所述法律问答数据集包括多个法律案件样本,各所述法律案件样本包括描述法律案件的案件详情文本和对应的判决依据法条;其中,样本编辑模块可以包括第三编辑子模块,第三编辑子模块用于:
54、根据每种所述预设长度从所述法律问答数据集中选择出多个目标法律案件样本;
55、针对各所述目标法律案件样本,根据案件详情文本的长度和所要匹配的预设长度确定出截取长度,根据所述截取长度截取法律中判决依据法条前后的多个法条,并对各所述法条进行重编号得到多个参考法条;
56、针对各所述目标法律案件样本,以对应的多个参考法条和案件详情文本构成上下文问题、以对应的判决依据法条作为上下文问题的答案,构建出对应各所述目标法律案件样本的样本。
57、在一种可能的实现方式中,所述论文数据集包括多个论文,其中,样本编辑模块可以包括第四编辑子模块,第四编辑子模块用于:
58、将各所述论文的正文文本作为总结题题目,以及将各所述总结题题目对应的论文的摘要作为以该总结题题目的总结题答案;
59、根据各所述总结题答案的内容,删掉对应的总结题题目中的相似片段,得到优化后总结题题目;
60、根据各所述优化后总结题题目和对应的总结题答案,构建出对应的样本。
61、在一种可能的实现方式中,所述小说数据集包括多个小说文本,其中,样本编辑模块可以包括第五编辑子模块,第五编辑子模块用于:
62、根据各所述预设长度对各所述小说文本进行段落截取,得到各所述小说文本的总长度与预设长度对应的多个情节段落;
63、删除各所述情节段落中的标题后将多个情节段落乱序拼接,得到针对的各所述小说文本的第四文本;
64、根据各所述第四文本和各所述第四文本中情节段落的正确排序,构建出各所述第四文本对应的样本。
65、在一种可能的实现方式中,所述样本的长度是该样本的字数,所述阈值长度至少大于1.6万。
66、根据本公开的另一方面,提供了一种文本评测基准构建装置,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为在执行所述存储器存储的指令时,实现上述方法。
67、根据本公开的另一方面,提供了一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其中,所述计算机程序指令被处理器执行时实现上述方法。
68、根据本公开的另一方面,提供了一种计算机程序产品,包括计算机可读代码,或者承载有计算机可读代码的非易失性计算机可读存储介质,当所述计算机可读代码在电子设备的处理器中运行时,所述电子设备中的处理器执行上述方法。
69、为解决上述技术问题,本公开实施例提供了一种文本评测基准构建方法及装置,能够创建出至少针对中文和英文的文本数据集,基于该文本数据集可以进一步构建出文本评测基准,以利用文本评测基准进行针对支持超过阈值长度的文本的大语言模型的客观评测。其中,由于文本数据集中样本种类丰富,使得构建出的文本评测基准能够有效评测模型对长上下文信息汇总和理解推理能力。文本数据集中样本的长度分级,可以满足各类长文本模型的对文本长度的需求。
70、根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
1.一种文本评测基准构建方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述选择题数据集包括多个选择题样本,各所述选择题样本包括一个选择题文本以及针对所述选择题文本的选择题;
3.根据权利要求2所述的方法,其特征在于,对各所述第一数据集中的样本进行编辑处理,得到对应的多个样本,还包括:
4.根据权利要求1所述的方法,其特征在于,所述问答题数据集包括多文档问答题数据集,所述多文档问答题数据集包括多个问答题文档,各所述问答题文档是根据多个问答题样本形成的文本,每个所述问答题样本包括一个问答题的问答题目和对应的问答答案;
5.根据权利要求1所述的方法,其特征在于,所述问答题数据集包括法律问答数据集,所述法律问答数据集包括多个法律案件样本,各所述法律案件样本包括描述法律案件的案件详情文本和对应的判决依据法条;
6.根据权利要求1所述的方法,其特征在于,所述论文数据集包括多个论文,
7.根据权利要求1所述的方法,其特征在于,所述小说数据集包括多个小说文本,
8.根据权利要求1所述的方法,其特征在于,所述样本的长度是该样本的字数,所述阈值长度至少大于1.6万。
9.一种文本评测基准构建装置,其特征在于,包括:
10.一种文本评测基准构建装置,其特征在于,包括:
11.一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1至8中任意一项所述的方法。