本发明涉及电力领域大语言模型领域,具体涉及一种对电力领域大语言模型效果的评估方法及系统。
背景技术:
1、(1)目前在大语言模型的垂直领域使用场景中,大多数的评价方法为人工评价,具体做法为将大语言模型输出的结果反馈给研发人员,由研发人员人为的判断结果是否合理。人工的设计评价指标费时费力,且可能存在一定的主观性及局限性。
2、(2)在某些垂直领域的大语言模型应用中使用到了文本匹配模型(例如qa匹配,短语匹配)进行评价,具体做法为将大语言模型生成的答案与标签答案进行相似度匹配。该评价更多的适用于词汇或短语的匹配,对长文本生成的评价存在一定难度,适用性不高。
3、(3)现存技术中存在一种评价方法为使用性能较好的开源的大语言模型(如gpt4)微调用于评估的迁移模型,之后使用迁移模型对垂直领域的微调模型进行评价。该方式受限于迁移模型的性能,存在一定的局限性。
技术实现思路
1、为了解决现有技术人工的设计评价指标费时费力,且可能存在一定的主观性及局限性,使用文本匹配模型进行的大语言模型评价更多的适用于词汇或短语的匹配,对长文本生成的评价存在一定难度,适用性不高的问题,本发明提出了一种对电力领域大语言模型效果的评估方法,包括:
2、将预先构建的电力领域大语言模型评价题库代入电力领域大语言模型中进行作答,得到作答结果;
3、基于所述作答结果计算作答正确率,基于所述作答正确率评估所述电力领域大语言模型的效果;其中,所述电力领域大语言模型评价题库是通过调研电力领域各个应用场景,经过多模型测试和人工测试构建的。
4、可选的,所述电力领域大语言模型评价题库的构建包括:
5、通过调研电力领域各个应用场景构建初步的电力领域大语言模型评价题库;
6、对所述初步的电力领域大语言模型评价题库进行多模型测试和人工评价;
7、基于多模型测试结果和人工评价结果修改所述初步的电力领域大语言模型评价题库,得到修改后的电力领域大语言模型评价题库;
8、对所述修改后的电力领域大语言模型评价题库进行多模型测试和人工评价,直至经过电力领域大语言模型回答正确率达到设定值,且人工评价无修改建议,将所述修改后的电力领域大语言模型评价题库作为电力领域大语言模型评价题库。
9、可选的,所述通过调研电力领域各个应用场景构建初步的电力领域大语言模型评价题库,包括:
10、通过调研使用电力领域内专业知识场景收集各种试题内出现频率达到设定频率的题目及答案,形成电力领域专业性知识题库;
11、通过调研查看电力领域常识性百科知识,根据常识的常见性及重要性,抽取部分题目及答案,形成电力领域常识性题库;
12、通过调研电力领域内各安全场景,收集出现频率达到设定阈值的题目及答案,以及从典型安全事故中提取知识,形成电力领域安全知识题库;
13、通过调研问询电力行业内从业人员,以及让从业人员进行对话模型测试,获得业务场景中电力领域专业性知识题库、电力领域常识性题库和电力领域安全知识题库的占比;
14、基于所述电力领域专业性知识题库、电力领域常识性题库和电力领域安全知识题库,以及所述电力领域专业性知识题库、电力领域常识性题库和电力领域安全知识题库的占比形成初步的电力领域大语言模型评价题库。
15、可选的,所述对所述初步的电力领域大语言模型评价题库进行多模型测试和人工评价,包括:
16、将所述初步的电力领域大语言模型评价题库代入未经过垂直领域微调的各开源大语言模型中,得到未经微调的测试结果;
17、将所述初步的电力领域大语言模型评价题库代入在电力领域内微调后的各开源大语言模型中,得到经过微调的测试结果;
18、将所述初步的电力领域大语言模型评价题库代入商用大语言模型中,得到商用测试结果;
19、对所述初步的电力领域大语言模型评价题库进行人工评价。
20、可选的,所述基于多模型测试结果和人工评价结果修改所述初步的电力领域大语言模型评价题库,得到修改后的电力领域大语言模型评价题库,包括:
21、对所述未经微调的测试结果进行分析,记录各个大语言模型都未能输出正确答案的题目;
22、对电力领域专业性知识题目,收集在电力领域大语言模型都未能输出正确答案的题目,形成错题集;
23、对常识性及安全领域题库,查看所述记录,对比所述经过微调的测试结果,收集未能回答准确的问题且出现在记录中的题目,添加进错题集;
24、对所述商用测试结果进行分析,收集未能输出正确答案的题目,与所述错题集进行对比,将出现在错题集中的题目重点标记,并将收集的未能输出正确答案的题目添加进错题集,完善错题库;
25、对人工评价结果中答错的题目计算出错率,将所述出错率达到设定阈值的题目与所述错题集进行对比,在所述错题集中标注出出错率达到设定阈值的题目;
26、基于所述错题集、人工评价结果中答题人员的意见和建议修改所述初步的电力领域大语言模型评价题库;
27、其中,所述多模型测试结果包括:未经微调的测试结果、经过微调的测试结果和商用测试结果。
28、可选的,所述基于所述错题集、人工评价结果中答题人员的意见和建议修改所述初步的电力领域大语言模型评价题库,包括:
29、根据答题人员的意见和建议,对初步的电力领域大语言模型评价题库进行修改;
30、分析错题集中标注的题目,查看题目表述是否存在歧义,对于存在歧义的题目,修改表达方式,对于表述无误的题目进行删除,并通过调研电力领域各个应用场景重新筛选题目进行替换。
31、可选的,所述对所述初步的电力领域大语言模型评价题库进行人工评价,包括:
32、对所述电力领域大语言模型评价题库进行人工答题;
33、答题完毕后,收集整理参与答题的人对所述初步的电力领域大语言模型评价题库的意见和建议。
34、可选的,所述基于所述作答正确率评估所述电力领域大语言模型的效果,包括:
35、若所述作答正确率达到正确率阈值,则所述电力领域大语音模型的效果好,否则,所述电力领域大语音模型的效果差。
36、再一方面,本技术还提供了一种对电力领域大语言模型效果的评估系统,包括:
37、作答模块,用于将预先构建的电力领域大语言模型评价题库代入电力领域大语言模型中进行作答,得到作答结果;
38、评估模块,用于基于所述作答结果计算作答正确率,基于所述作答正确率评估所述电力领域大语言模型的效果;
39、其中,所述电力领域大语言模型评价题库是通过调研电力领域各个应用场景,经过多模型测试和人工测试构建的。
40、可选的,还包括题库构建模块,用于构建电力领域大语言模型评价题库。
41、可选的,题库构建模块包括:
42、初步构建子模块,用于通过调研电力领域各个应用场景构建初步的电力领域大语言模型评价题库;
43、测试评价子模块,用于对所述初步的电力领域大语言模型评价题库进行多模型测试和人工评价;
44、修改子模块,用于基于多模型测试结果和人工评价结果修改所述初步的电力领域大语言模型评价题库,得到修改后的电力领域大语言模型评价题库;
45、题库确定子模块,用于对所述修改后的电力领域大语言模型评价题库进行多模型测试和人工评价,直至经过电力领域微调后的大语言模型回答正确率达到设定值,且人工评价无修改建议,将所述修改后的电力领域大语言模型评价题库作为电力领域大语言模型评价题库。
46、可选的,初步构建子模块具体用于:
47、通过调研使用电力领域内专业知识场景收集各种试题内出现频率达到设定频率的题目及答案,形成电力领域专业性知识题库;
48、通过调研查看电力领域常识性百科知识,根据常识的常见性及重要性,抽取部分题目及答案,形成电力领域常识性题库;
49、通过调研电力领域内各安全场景,收集出现频率达到设定阈值的题目及答案,以及从典型安全事故中提取知识,形成电力领域安全知识题库;
50、通过调研问询电力行业内从业人员,以及让从业人员进行对话模型测试,获得业务场景中电力领域专业性知识题库、电力领域常识性题库和电力领域安全知识题库的占比;
51、基于所述电力领域专业性知识题库、电力领域常识性题库和电力领域安全知识题库,以及所述电力领域专业性知识题库、电力领域常识性题库和电力领域安全知识题库的占比形成初步的电力领域大语言模型评价题库。
52、可选的,测试评价子模块包括:
53、未调试测试子模块,用于将所述初步的电力领域大语言模型评价题库代入未经过垂直领域微调的各开源大语言模型中,得到未经微调的测试结果;
54、电力测试子模块,用于将所述初步的电力领域大语言模型评价题库代入在电力领域内微调后的各开源大语言模型中,得到经过微调的测试结果;
55、商用测试子模块,用于将所述初步的电力领域大语言模型评价题库代入商用大语言模型中,得到商用测试结果;
56、人工评价子模块,用于对所述初步的电力领域大语言模型评价题库进行人工评价。
57、可选的,修改子模块具体用于:
58、对所述未经微调的测试结果进行分析,记录各个大语言模型都未能输出正确答案的题目;
59、对电力领域专业性知识题目,收集在电力领域大语言模型都未能输出正确答案的题目,形成错题集;
60、对常识性及安全领域题库,查看所述记录,对比所述经过微调的测试结果,收集未能回答准确的问题且出现在记录中的题目,添加进错题集;
61、对所述商用测试结果进行分析,收集未能输出正确答案的题目,与所述错题集进行对比,将出现在错题集中的题目重点标记,并将收集的未能输出正确答案的题目添加进错题集,完善错题库;
62、对人工评价结果中答错的题目计算出错率,将所述出错率达到设定阈值的题目与所述错题集进行对比,在所述错题集中标注出出错率达到设定阈值的题目;
63、基于所述错题集、人工评价结果中答题人员的意见和建议修改所述初步的电力领域大语言模型评价题库;
64、其中,所述多模型测试结果包括:未经微调的测试结果、经过微调的测试结果和商用测试结果。
65、可选的,修改子模块中的基于所述错题集、人工评价结果中答题人员的意见和建议修改所述初步的电力领域大语言模型评价题库的实现步骤包括:
66、根据答题人员的意见和建议,对初步的电力领域大语言模型评价题库进行修改;
67、分析错题集中标注的题目,查看题目表述是否存在歧义,对于存在歧义的题目,修改表达方式,对于表述无误的题目进行删除,并通过调研电力领域各个应用场景重新筛选题目进行替换。
68、可选的,人工评价子模块具体用于:
69、对所述电力领域大语言模型评价题库进行人工答题;
70、答题完毕后,收集整理参与答题的人对所述初步的电力领域大语言模型评价题库的意见和建议。
71、可选的,所述评估模块具体用于:
72、若所述作答正确率达到正确率阈值,则所述电力领域大语音模型的效果好,否则,所述电力领域大语音模型的效果差。
73、再一方面,本技术还提供了一种计算设备,包括:一个或多个处理器;
74、处理器,用于执行一个或多个程序;
75、当所述一个或多个程序被所述一个或多个处理器执行时,实现如上述所述的一种对电力领域大语言模型效果的评估方法。
76、再一方面,本技术还提供了一种计算机可读存储介质,其上存有计算机程序,所述计算机程序被执行时,实现如上述所述的一种对电力领域大语言模型效果的评估方法。
77、与现有技术相比,本发明的有益效果为:
78、本发明提供了一种对电力领域大语言模型效果的评估方法,包括将预先构建的电力领域大语言模型评价题库代入电力领域大语言模型中进行作答,得到作答结果;基于所述作答结果计算作答正确率,基于所述作答正确率评估所述电力领域大语言模型的效果;其中,所述电力领域大语言模型评价题库是通过调研电力领域各个应用场景,经过多模型测试和人工测试构建的。本发明通过调研电力领域各个应用场景,经过多模型测试和人工测试构建电力领域大语言模型评价题库,该题库覆盖电力领域各方面的知识,可对电力领域大语言模型的效果进行客观性评估,且适用性高。
1.一种对电力领域大语言模型效果的评估方法,其特征在于,包括:
2.如权利要求1所述的方法,其特征在于,所述电力领域大语言模型评价题库的构建包括:
3.如权利要求2所述的方法,其特征在于,所述通过调研电力领域各个应用场景构建初步的电力领域大语言模型评价题库,包括:
4.如权利要求2所述的方法,其特征在于,所述对所述初步的电力领域大语言模型评价题库进行多模型测试和人工评价,包括:
5.如权利要求4所述的方法,其特征在于,所述基于多模型测试结果和人工评价结果修改所述初步的电力领域大语言模型评价题库,得到修改后的电力领域大语言模型评价题库,包括:
6.如权利要求5所述的方法,其特征在于,所述基于所述错题集、人工评价结果中答题人员的意见和建议修改所述初步的电力领域大语言模型评价题库,包括:
7.如权利要求4所述的方法,其特征在于,所述对所述初步的电力领域大语言模型评价题库进行人工评价,包括:
8.如权利要求1所述的方法,其特征在于,所述基于所述作答正确率评估所述电力领域大语言模型的效果,包括:
9.一种对电力领域大语言模型效果的评估系统,其特征在于,包括:
10.一种计算机设备,其特征在于,包括:一个或多个处理器;
11.一种计算机可读存储介质,其特征在于,其上存有计算机程序,所述计算机程序被执行时,实现如权利要求1至8中任一项所述的一种对电力领域大语言模型效果的评估方法。