本发明涉及自然语言处理,并且更具体地,涉及一种基于提示工程和微调技术的文本生成方法及系统。
背景技术:
1、自然语言处理技术在近几十年来得到高速发展,这一技术随即被应用在越来越多的领域中,文本生成就是重要方向之一。目前,常见的文本生成技术主要是基于传统神经网络的文本生成方法、基于生成对抗网络的文本生成技术、引入强化学习的文本生成方法,循环神经网络长期以来都被视为处理序列问题的有效工具,并且也已经有大量研究人员把这一模型应用在构造语言模型上。例如,发明申请cn114462419a公开了一种文本生成模型及文本生成方法。其中,文本生成模型,包括:编码模块和解码模块。编码模块适于对输入数据进行处理,以提取出指示其语义特征的第一向量;解码模块适于对第一向量进行处理,以生成至少一个句向量,来组成长文本。进一步地,解码模块又包括:子句内容规划单元,与编码模块耦接,适于接收编码模块的输出,对编码模块输出的第一向量进行处理,以确定出至少一个指示子句语义特征的第二向量;单词生成单元,与子句内容规划单元耦接,适于对第二向量进行处理,生成多个单词对应的词向量,以及,利用词向量,组合成至少一个句向量,来生成长文本。
2、“大算力+强算法”的出现改变了传统人工智能时代是“一场景一模型”的“小作坊模式”,它收集大量图像、文本等数据,利用无监督或者自监督学习方法训练出通用基础模型,遇到特定任务时,只需要输入特定的数据即可生成符合实际场景的应用。人工智能大语言模型从支持图片、图像、文本、语音单一模态下的单一任务,逐渐发展为支持多种模态下的多种任务,参数量实现了从亿级到百万亿级的突破。但是,现有的大语言模型在专业问答领域中应用时未考虑实际使用过程中gpu资源有限问题,导致使用过程中设备资源利用率较低,因此现有的大语言模型在专业问答领域中存在任务执行较差、专业知识欠缺的情况。
技术实现思路
1、针对现有技术的不足,本发明提供一种基于提示工程和微调技术的文本生成方法及系统。
2、根据本发明的一个方面,提供了一种基于提示工程和微调技术的文本生成方法,包括:
3、根据目标场景的需求,采用微调技术对开源的embedding模型进行优化和微调;
4、将目标场景涉及的知识文本通过微调后的embedding模型转化为向量,之后存储在预设的向量数据库中;其中,知识文本包括问题和答案;
5、将用户问题通过微调后的embedding模型转化为问题向量,并在向量数据库中检索与问题向量相似度最高的向量,作为匹配向量;
6、将匹配向量转化为匹配文本,基于匹配文本、用户问题和知识文本,利用提示工程技术,生成符合目标场景需求的提示词;
7、将提示词、匹配文本和用户问题一同送入预设的大语言模型,生成与用户问题匹配的答案;
8、其中,所述根据目标场景的需求,采用微调技术对开源的embedding模型进行优化和微调,具体包括:
9、根据目标场景的需求,确定目标场景下的查询数据以及与查询数据对应的正负样本;
10、基于查询数据和对应的正负样本,构建微调数据集;
11、将低秩适配法应用于开源的embedding模型的交叉注意力机制全连接层的权重矩阵上,基于构建的微调数据集,对开源的embedding模型进行优化和微调。
12、可选地,所述将目标场景涉及的知识文本通过微调后的embedding模型转化为向量,具体包括:
13、收集目标场景涉及的知识文本,并对知识文本进行断句处理,得到多个句子;
14、将每个句子进一步切分成单独的词语,在去除停用词后,对每个词语进行词性标注,确定每个词语的语义角色;
15、根据每个词语的语义角色,对断句得到的每个句子进行句法分析,确定每个句子中各个词语之间的语法关系;
16、通过语法关系和语义上下文信息,对断句得到的每个句子进行语义理解,确定每个句子的语义信息;
17、根据目标场景的任务需求以及每个句子的语义信息,对知识文本进行标注,确定知识文本的类别标签;
18、将带有类别标签的知识文本送入微调后的embedding模型,得到对应的文本向量。
19、可选地,所述将带有类别标签的知识文本送入微调后的embedding模型,得到对应的文本向量,具体包括:
20、将带有类别标签的知识文本按照预设长度进行分段处理;
21、将分段处理得到的各段知识文本分别送入微调后的embedding模型,得到多段文本向量。
22、根据本发明的另一个方面,提供了一种基于提示工程和微调技术的文本生成系统,包括:
23、模型微调模块,用于根据目标场景的需求,采用微调技术对开源的embedding模型进行优化和微调;
24、向量化模块,用于将目标场景涉及的知识文本通过微调后的embedding模型转化为向量,之后存储在预设的向量数据库中;其中,知识文本包括问题和答案;
25、向量匹配模块,用于将用户问题通过微调后的embedding模型转化为问题向量,并在向量数据库中检索与问题向量相似度最高的向量,作为匹配向量;
26、提示词生成模块,用于将匹配向量转化为匹配文本,基于匹配文本、用户问题和知识文本,利用提示工程技术,生成符合目标场景需求的提示词;
27、答案生成模块,用于将提示词、匹配文本和用户问题一同送入预设的大语言模型,生成与用户问题匹配的答案;
28、其中,所述模型微调模块,具体用于:
29、根据目标场景的需求,确定目标场景下的查询数据以及与查询数据对应的正负样本;
30、基于查询数据和对应的正负样本,构建微调数据集;
31、将低秩适配法应用于开源的embedding模型的交叉注意力机制全连接层的权重矩阵上,基于构建的微调数据集,对开源的embedding模型进行优化和微调。
32、可选地,所述向量化模块,具体用于:
33、收集目标场景涉及的知识文本,并对知识文本进行断句处理,得到多个句子;
34、将每个句子进一步切分成单独的词语,在去除停用词后,对每个词语进行词性标注,确定每个词语的语义角色;
35、根据每个词语的语义角色,对断句得到的每个句子进行句法分析,确定每个句子中各个词语之间的语法关系;
36、通过语法关系和语义上下文信息,对断句得到的每个句子进行语义理解,确定每个句子的语义信息;
37、根据目标场景的任务需求以及每个句子的语义信息,对知识文本进行标注,确定知识文本的类别标签;
38、将带有类别标签的知识文本送入微调后的embedding模型,得到对应的文本向量。
39、可选地,所述将带有类别标签的知识文本送入微调后的embedding模型,得到对应的文本向量,具体包括:
40、将带有类别标签的知识文本按照预设长度进行分段处理;
41、将分段处理得到的各段知识文本分别送入微调后的embedding模型,得到多段文本向量。
42、根据本发明的又一个方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行本发明上述任一方面所述的方法。
43、根据本发明的又一个方面,提供了一种电子设备,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述可执行指令以实现本发明上述任一方面所述的方法。
44、本发明基于微调技术,在冻结大语言模型参数的前提下,仅需训练少量额外参数即可实现专业问答领域适配,在达到与全量微调性能相当的同时,大大降低了计算和存储的开销。并且将提示词、匹配文本和用户问题一同送入预设的大语言模型,能够更好地捕捉问题和目标场景之间的语义关联,有效地利用了上下文信息,更深入地理解了复杂问题,能够更准确地提取关键信息,生成的答案更加符合目标场景的实际需求,任务执行高效。本发明通过知识文本绑定和提示词工程,增强了模型对专业问答领域知识的理解,提升了答案的准确性和丰富性,能够根据用户的问题和情况生成相应的解决方案和答案。从而解决现有的大语言模型在专业问答领域中存在任务执行较差、专业知识欠缺的技术问题。
1.一种基于提示工程和微调技术的文本生成方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述将目标场景涉及的知识文本通过微调后的embedding模型转化为向量,具体包括:
3.根据权利要求2所述的方法,其特征在于,所述将带有类别标签的知识文本送入微调后的embedding模型,得到对应的文本向量,具体包括:
4.一种基于提示工程和微调技术的文本生成系统,其特征在于,包括:
5.根据权利要求4所述的系统,其特征在于,所述向量化模块,具体用于:
6.根据权利要求5所述的系统,其特征在于,所述将带有类别标签的知识文本送入微调后的embedding模型,得到对应的文本向量,具体包括:
7.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-3任一所述的方法。
8.一种电子设备,其特征在于,所述电子设备包括: