本发明涉及知识库构建领域,具体为一种基于大语言模型的电力科研成果知识库构建方法。
背景技术:
1、电力行业是现代社会的支柱产业之一,积累了大量重要的研究成果。这些成果能够促进能源效率、降低污染、提高电网稳定性,为可持续能源和电力行业发展提供关键技术支持,有助于改善生活质量并推动经济增长。然而,电力领域知识体系复杂,包括电力产生、传输、分配和利用等多个方面,涵盖了电机、电路、电子技术、能源管理、可再生能源和电力系统等广泛领域,是跨学科的综合知识。因此,很难充分利用电力研究成果中蕴含的电力领域知识。
2、知识图谱是一种组织和检索信息的方法,它通过图形结构将知识联系起来。它使知识得以理解、发现和应用。在搜索引擎、自然语言处理和推荐系统等领域,知识图谱可以提高信息检索和理解的效率,为用户提供更准确的信息。此外,知识图谱还能支持智能决策、数据挖掘和语义分析,促进搜索和在医疗、金融、教育和科研等不同领域的应用。
3、如公开号为cn105205341a的中国专利公开一种基于客户诉求的电力配网改造需求模型构建的实现方法,首先进行数据采集;再进行自动评级模型构建:依次进行指标构建、权重确定与分值映射;接着进行改造需求评级:抽取目标地区的特征数据,基于自动评级模型,自动计算所述特征数据并得到分值,对分值进行区间划分,最后得出相应台区改造需求的级别;所述特征数据包括台区、95598工单、营销档案;然后进行评级输出:将台区改造需求评级的结果存储在相应的数据库中,以供查询;最后将评级结果应用在供电客服中心以及电力运维检修部门的工作中。本发明能够对存在服务隐患的配网台区进行重点关注,并据此指导配网改造资金的投入,及时消除服务隐患,降低客户投诉率,提高客户满意度。
4、综上所述,现有针对电力科研成果知识库的构建上还存在诸多弊端,总结如下:
5、①目前传统方法中对于关键词的选择在不同领域的准确性上明显不足;
6、②文本相似度计算效果也无法与本电力科研成果知识库匹配;
7、③电力科研成果知识库的内容过于庞大且特殊,目前方法无法提高整合效率。
技术实现思路
1、针对现有技术的不足,本发明提供了一种基于大语言模型的电力科研成果知识库构建方法,以解决上述问题。
2、为实现以上目的,本发明通过以下技术方案予以实现。
3、一种基于大语言模型的电力科研成果知识库构建方法,包括以下步骤:
4、s1、构建电力科研成果原始知识库;
5、s2、基于大语言模型构建电力科研成果关键词词库;
6、s3、基于大语言模型的构建电力科研成果知识库,
7、利用提示词工程将chatglm2-6b作为关键词扩充器和关键词领域判别器,实现了对关键词信息的全方位、全面性的补充,相较于传统方法,本发明技术不仅提供了更多的关键词选择,而且确保这些关键词在不同领域的准确性,为用户提供更为全面、深度的信息支持;此外,本发明采用的文本相似度计算方法通过巧妙整合关键词信息、上下文语义和文本长度,展现了全面性特征融合的优越性;相较于传统的余弦相似度计算方法,本发明融合多维度信息,实现了文本相似度计算效果的提升,本发明充分挖掘了语言模型中包含的领域知识,提出了高效的文本相似度计算方法,最终提高了知识整合效率,增强了知识库的内容丰富性和相关性,为电力领域的研究和应用提供了有力支持,为电力科研和信息处理提供了高度可靠的解决方案,
8、其中s1通过使用scrapy爬虫框架,在知网中分别使用与电力学科相关的关键词进行检索,并获取每个关键词对应的内容,对获取到的内容进行数据预处理,移除文本中的html标签和特殊字符,处理缺失数据和异常字符;根据文献数据的唯一标识符如标题和作者,进行数据去重,以防止重复的信息进入知识库;
9、所述步骤s2基于原始知识库,利用大语言模型对关键词信息进行扩充:
10、其中s2-1包括利用大语言模型具有的先验知识,将其作为关键词扩充器,运用提示词工程对原始知识库中的关键词信息进行关联信息扩充,通过提示词工程将大语言模型应用在具体的任务中,通过设置生成关联关键词的任务提示词,给出生成关联关键词的问答示例,将大语言模型转化为电力关键词扩展器,应用在关键词信息扩充过程,
11、所述s2-2是将s2-1得到的关键词词库结合词嵌入模型,获取别称/近义信息,构建出电力科研成果关键词词库,
12、其中,s2-2包括利用词嵌入模型对扩充完的关键词词库进行向量化,考虑关键词本身信息、关键词上下文语义信息和关键文本长度进行文本相似度分析,通过高阈值获取关键词的别称/近义信息,并将其归于一类,且基于bge-large-zh模型将关键词在向量空间中进行高效而全面的语义表征,
13、还基于关键词向量考虑关键词本身信息、关键词上下文语义信息和关键文本长度信息提出文本相似度计算方法,提出的文本相似度计算方式如下:
14、
15、式中:similarity表示向量a和b的文本相似度,vai、vbi代表关键词向量a和b的各分量,ta、tb分别表示包含关键词a和关键词b的文献的关键词的集合,la,、lb分别表示包含关键词a和关键词b的长度,α、β、γ是权重系数,用于平衡关键词本身信息、关键词上下文语义信息和关键文本长度信息,
16、选择的相似度阈值为0.95,用于实现别称/近义关键词的分类过程,本发明中选择的相似度阈值为0.95,用于实现别称/近义关键词的分类过程。不同的阈值设置会导致不同的同义关键词分类结果,如果设置得太高,可能会漏掉一些同义关键词,如果设置得太低,可能会导致分类效果不佳,本发明中选择相似度阈值为0.95的决策是为了在同义关键词的分类中取得适应性与准确性的平衡。这一选择旨在构建知识库时更加精准地捕捉同义关键词的关联性,为系统的知识表示提供更为精细和全面的信息,从而提高了知识库的适应性和准确性;
17、所述步骤s3为基于大语言模型的构建电力科研成果知识库,具体步骤如下:
18、s3-1:利用大语言模型与提示词工程获取关键词的领域信息;
19、其中,所述s3-1包括设置提示词令大语言模型转化为关键词领域判别器,使得大语言模型可以判断输入的关键词的领域信息,而后基于电力科研成果关键词词库进行过滤,将与电力领域科研行为关联不大的领域排除,
20、s3-2:构建电力科研成果知识库,
21、其中,电力科研成果知识库结合了电力科研成果关键词原始知识库信息、电力科研成果关键词词库信息和s3-1生成的关键词的领域信息,
22、本发明基于关键词向量考虑关键词本身信息、关键词上下文语义信息和关键文本长度信息提出了新的文本相似度计算方法。本发明基于关键词向量的文本相似度计算方法,不仅充分考虑了关键词本身的信息,而且通过对关键词上下文语义信息的综合分析,实现了对关键词信息的全面考虑。相较于传统方法,我们的技术在文本相似度计算中更为全面、准确地反映了关键词的复杂语义和语境。通过结合关键词上下文语义信息;
23、本发明的文本相似度计算方法能够更精准地捕捉关键词的语义关联,提高了文本相似度计算的准确性。这一特性使得本发明在不同领域和语境下都能够更为准确地度量文本相似度,为用户提供更为精准的信息匹配。最后,对关键文本长度信息的考虑使得我们的文本相似度计算更具智能性和灵活性。在比较不同长度的文本时,我们的技术能够根据具体情况进行权衡,确保相似度计算结果更为客观和合理,为用户提供更为全面的信息匹配服务。
24、优选的,所述步骤s1中基于tf idf统计模型过滤关键词,获取电力科研活动相关关键词。
25、优选的,所述关键词的相关性计算指标为:
26、
27、其中,fkeywords是关键词的相关性指标,ntd表示文献关键词t在对应文献摘要d中的出现次数,nd表示一篇文献包含的关键词数,n表示文献总数,nt表示摘要中包含关键词t的文献数。
28、优选的,所述获取到所有关键词的fkeywords指标进行排序得到最大值fmax,关键词i的指标为fkeywords(i),则将fkeywords(i)<0.1fmax的关键词过滤,以此为基础构建了电力科研成果的原始知识库。
29、优选的,所述步骤s2-1的大语言模型采用chatglm2-6b应用于关键词扩充,将chatglm2-6b作为关键词扩充器,本发明中的大语言模型采用chatglm2-6b,不仅在语言理解方面具备卓越性能,在本发明中还被成功应用于关键词扩充。通过将chatglm2-6b作为关键词扩充器,我们的技术能够利用其丰富的知识库,以更智能、更全面的方式扩展关键词,为用户提供更为详实和有深度的信息。
30、优选的,所述步骤s2-1通过提示词工程将大语言模型应用在具体的任务中的具体方法为:首先设置一句短语或句子,向模型提供要执行的具体任务信息。
31、优选的,所述步骤s2-1的具体方法其次还提供与任务相关的上下文信息,以帮助模型理解任务的需求;最后给出实际需要模型处理的文本数据。
32、优选的,所述步骤s2-2中基于bge-large-zh模型将关键词在向量空间中进行高效而全面的语义表征,最终关键词表示为以下形式:
33、hx=bge(k)
34、hi1=[hx+p0,...,hx+pn]
35、hi2=[hx,e1+p1,...,en+pn]
36、
37、其中,k表示关键词,hi1、hi2是词向量的输入,hx是关键词嵌入,ei是关键词字符的token嵌入,pi是关键词字符的位置嵌入,v是关键词表示向量,n为关键词字数,vi是字符表示向量,wi1、wi2、wi3是权重。
38、优选的,所述步骤s3-1通过设置判别关键词领域信息的任务提示词,给出判别关键词领域的问答示例,将大语言模型转化为电力关键词领域判别器,获取关键词的领域信息。
39、优选的,所述电力科研成果知识库包含文献标题、作者、摘要、关键词、关键词的别称/近义信息和领域信息。
40、相比于现有技术而言,本发明公开了一种基于大语言模型的电力科研成果知识库构建方法,利用提示词工程将chatglm2-6b作为关键词扩充器和关键词领域判别器,实现了对关键词信息的全方位、全面性的补充,
41、①相较于传统方法,本发明技术不仅提供了更多的关键词选择,而且确保这些关键词在不同领域的准确性,为用户提供更为全面、深度的信息支持;
42、②此外,本发明采用的文本相似度计算方法通过巧妙整合关键词信息、上下文语义和文本长度,展现了全面性特征融合的优越性;
43、③相较于传统的余弦相似度计算方法,本发明融合多维度信息,实现了文本相似度计算效果的提升,本发明充分挖掘了语言模型中包含的领域知识,提出了高效的文本相似度计算方法,最终提高了知识整合效率,增强了知识库的内容丰富性和相关性,为电力领域的研究和应用提供了有力支持,为电力科研和信息处理提供了高度可靠的解决方案;
44、④本发明中的大语言模型采用chatglm2-6b,不仅在语言理解方面具备卓越性能,在本发明中还被成功应用于关键词扩充。通过将chatglm2-6b作为关键词扩充器,我们的技术能够利用其丰富的知识库,以更智能、更全面的方式扩展关键词,为用户提供更为详实和有深度的信息;
45、⑤本发明基于关键词向量考虑关键词本身信息、关键词上下文语义信息和关键文本长度信息提出了新的文本相似度计算方法。本发明基于关键词向量的文本相似度计算方法,不仅充分考虑了关键词本身的信息,而且通过对关键词上下文语义信息的综合分析,实现了对关键词信息的全面考虑。相较于传统方法,我们的技术在文本相似度计算中更为全面、准确地反映了关键词的复杂语义和语境。通过结合关键词上下文语义信息;
46、⑥本发明的文本相似度计算方法能够更精准地捕捉关键词的语义关联,提高了文本相似度计算的准确性。这一特性使得本发明在不同领域和语境下都能够更为准确地度量文本相似度,为用户提供更为精准的信息匹配。最后,对关键文本长度信息的考虑使得我们的文本相似度计算更具智能性和灵活性。在比较不同长度的文本时,我们的技术能够根据具体情况进行权衡,确保相似度计算结果更为客观和合理,为用户提供更为全面的信息匹配服务;
47、⑦本发明中选择的相似度阈值为0.95,用于实现别称/近义关键词的分类过程。不同的阈值设置会导致不同的同义关键词分类结果,如果设置得太高,可能会漏掉一些同义关键词,如果设置得太低,可能会导致分类效果不佳,本发明中选择相似度阈值为0.95的决策是为了在同义关键词的分类中取得适应性与准确性的平衡。这一选择旨在构建知识库时更加精准地捕捉同义关键词的关联性,为系统的知识表示提供更为精细和全面的信息,从而提高了知识库的适应性和准确性。
1.一种基于大语言模型的电力科研成果知识库构建方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于大语言模型的电力科研成果知识库构建方法,其特征在于:所述步骤s1中基于tf idf统计模型过滤关键词,获取电力科研活动相关关键词。
3.根据权利要求2所述的基于大语言模型的电力科研成果知识库构建方法,其特征在于:所述关键词的相关性计算指标为:
4.根据权利要求3所述的基于大语言模型的电力科研成果知识库构建方法,其特征在于:所述获取到所有关键词的fkeywords指标进行排序得到最大值fmax,关键词i的指标为fkeywords(i),则将fkeywords(i)<0.1fmax的关键词过滤,以此为基础构建了电力科研成果的原始知识库。
5.根据权利要求1所述的基于大语言模型的电力科研成果知识库构建方法,其特征在于:所述步骤s2-1的大语言模型采用chatglm2-6b应用于关键词扩充,将chatglm2-6b作为关键词扩充器。
6.根据权利要求5所述的基于大语言模型的电力科研成果知识库构建方法,其特征在于:所述步骤s2-1通过提示词工程将大语言模型应用在具体的任务中的具体方法为:首先设置一句短语或句子,向模型提供要执行的具体任务信息。
7.根据权利要求6所述的基于大语言模型的电力科研成果知识库构建方法,其特征在于:所述步骤s2-1的具体方法其次还提供与任务相关的上下文信息,以帮助模型理解任务的需求;最后给出实际需要模型处理的文本数据。
8.根据权利要求7所述的基于大语言模型的电力科研成果知识库构建方法,其特征在于:所述步骤s2-2中基于bge-large-zh模型将关键词在向量空间中进行高效而全面的语义表征,最终关键词表示为以下形式:
9.根据权利要求1所述的基于大语言模型的电力科研成果知识库构建方法,其特征在于:所述步骤s3-1通过设置判别关键词领域信息的任务提示词,给出判别关键词领域的问答示例,将大语言模型转化为电力关键词领域判别器,获取关键词的领域信息。
10.根据权利要求10所述的基于大语言模型的电力科研成果知识库构建方法,其特征在于:所述电力科研成果知识库包含文献标题、作者、摘要、关键词、关键词的别称/近义信息和领域信息。