本发明涉及自然语言处理,具体为一种面向大语言模型的重复内容生成检测及优化方法。
背景技术:
1、近年来,随着深度学习和计算能力的发展,各类预训练语言模型蓬勃发展,其中典型的如gpt系列、bert系列等模型。
2、现有技术中,这些预训练语言模型的规模不断扩大,参数数量达到了百亿量级,其理解语言和生成文本的能力发生了质的飞跃。这些大规模语言模型可以自动连续生成语法和语义连贯的长文本,拥有接近人类水平的语言生成能力。
3、但是,研究发现,随着这些大规模语言模型生成内容量的增加,它们也会陷入循环重复相似内容的状态。因为生成的内容量巨大,难以人工进行监测。而模型本身也无法感知自己已经生成的内容,所以无法避免重复。已有的监督训练、细粒度输出控制等方法,还难以有效地检测和预防模型大规模自动生成过程中的重复内容。这已成为限制大规模语言模型生成能力的一个关键问题。
技术实现思路
1、本发明的目的在于提供一种面向大语言模型的重复内容生成检测及优化方法,以解决上述背景技术中提出的问题。
2、为实现上述目的,本发明提供如下技术方案:一种面向大语言模型的重复内容生成检测及优化方法,所述方法包括以下步骤:
3、借助预训练模型将模型新生成的句子向量化;
4、将向量化后的句子存储在向量库中;
5、在向量数据库中搜索与新句子的句向量的相似度高于预设阈值的已有句子向量;有单句达到第一阈值时,则判定有单句重复;如果连续两个新句子向量与数据库中上文连续的两句向量相似度均超过第二阈值,则判定语言模型已经生成完毕并开始重复输出整片文章;
6、处理重复并输出。
7、优选的,设置两个阈值,第一阈值和第二阈值,用以判断模型是否输出重复内容,第二阈值相比第一阈值较低。
8、优选的,借助预训练的文本向量化模型,将语言模型生成的每一个句子转换为相应的句向量,以获得句子的语义信息的向量表示,sentence-bert模型用于句子的向量表达。
9、优选的,将每一句的句子向量按顺序存储在向量数据库中。
10、优选的,在向量数据库中搜索与新句子的句向量的相似度高于预设阈值的已有句子向量,相似度计算采用余弦相似度方法。
11、优选的,如果模型有单句达到第一阈值时,则判定有单句重复,标注重复句子,并在模型生成完毕后将标注句子删除;如果连续两个新句子向量与数据库中上文连续的两句向量相似度均超过第二阈值,则判定语言模型已经生成完毕并开始重复输出整篇文章,则停止语言模型的内容生成,并删除最后重复的两句。
12、优选的,如果未检测到重复内容,则允许语言模型继续生成新内容,循环检测步骤,直到内容生成结束。
13、与现有技术相比,本发明的有益效果是:
14、本发明提出的面向大语言模型的重复内容生成检测及优化方法,采用预训练的文本向量化工具,将模型生成的每一句话转换为句向量,并存储在向量数据库中。当模型生成新句子时,重复向量化并在数据库中搜索与已有句子的相似度。如果相似度达到一定标准,则判定模型开始重复输出。当检测到模型开始重复时,本发明将停止模型生成并删除重复句子,避免重复内容的输出。相似度计算采用余弦相似度等度量方法。本发明通过实时监测句子向量的相似性判断模型输出是否存在重复,并在必要时中止输出,可以有效优化大语言模型的生成效果,避免重复内容的生成。
1.一种面向大语言模型的重复内容生成检测及优化方法,其特征在于:所述方法包括以下步骤:
2.根据权利要求1所述的一种面向大语言模型的重复内容生成检测及优化方法,其特征在于:设置两个阈值,第一阈值和第二阈值,用以判断模型是否输出重复内容,第二阈值相比第一阈值较低。
3.根据权利要求1所述的一种面向大语言模型的重复内容生成检测及优化方法,其特征在于:借助预训练的文本向量化模型,将语言模型生成的每一个句子转换为相应的句向量,以获得句子的语义信息的向量表示,sentence-bert模型用于句子的向量表达。
4.根据权利要求1所述的一种面向大语言模型的重复内容生成检测及优化方法,其特征在于:将每一句的句子向量按顺序存储在向量数据库中。
5.根据权利要求1所述的一种面向大语言模型的重复内容生成检测及优化方法,其特征在于:在向量数据库中搜索与新句子的句向量的相似度高于预设阈值的已有句子向量,相似度计算采用余弦相似度方法。
6.根据权利要求1所述的一种面向大语言模型的重复内容生成检测及优化方法,其特征在于:如果模型有单句达到第一阈值时,则判定有单句重复,标注重复句子,并在模型生成完毕后将标注句子删除;如果连续两个新句子向量与数据库中上文连续的两句向量相似度均超过第二阈值,则判定语言模型已经生成完毕并开始重复输出整篇文章,则停止语言模型的内容生成,并删除最后重复的两句。
7.根据权利要求1所述的一种面向大语言模型的重复内容生成检测及优化方法,其特征在于:如果未检测到重复内容,则允许语言模型继续生成新内容,循环检测步骤,直到内容生成结束。
