一种多特征融合的文本相似度判定方法

专利检索2025-06-30  22


本发明涉及自然语言处理领域,尤其涉及于一种多特征融合的文本相似度判定方法。


背景技术:

1、随着数字出版技术和互联网技术的兴起,为文本作品传播带来了便利,但也加大了版权保护的难度。传统的版权保护手段难以跟上数字时代技术的进步,这使得抄袭者有了更大的空间和机会。随着科技的快速发展,文本抄袭现象愈发严重,涉及到互联网信息传播、技术辅助工具、全球化交流以及数字出版与版权保护等众多技术背景因素。全球化进程加速了文化交流和融合,但也为抄袭行为提供了更大的舞台。不同文化背景下的作品容易被误解为抄袭,同时也为抄袭者提供了更多可供抄袭的素材。

2、为加强版权保护,文本相似度的相关检测技术成为研究重点,其背景技术主要包括自然语言处理(nlp)和机器学习领域的相关技术。在以往的研究中,大多数都是将文本中的语义特征提取出来,通过大量实验,进行相似度计算找到合适的阈值;或者将两个对比文本拼接输入到模型中,让模型直接输出判断结果。首先,自然语言处理技术是文本相似度检测的基础。这包括分词、去除停用词、词干提取等预处理步骤,以将文本转换为可供比较和分析的数字形式。此外,一些传统的字符串匹配算法如余弦相似度、jaccard相似度等也被广泛用于比较文本的相似度。另一方面,机器学习技术的发展也为文本相似度检测提供了强大的支持。基于词袋模型的向量空间模型(vsm)是最常用的技术之一。这种方法将文档表示为向量,向量的维度对应于词汇表的大小,每个维度上的值对应于该词汇在该文档中的权重。然后,可以使用这些向量计算文档间的相似度,例如通过余弦相似度。此外,随着深度学习技术的兴起,诸如卷积神经网络(cnn)和循环神经网络(rnn)等模型也被用于文本相似度检测。这些模型能够更好地捕捉文本中的语义信息,从而更准确地判断文本的相似度。最后,还有一些基于图的方法,如pagerank算法和simrank算法,也被用于比较文本的相似度。这些方法将文本中的词汇视为图中的节点,将词汇之间的关系视为图中的边,然后通过图的相似度来判断文本的相似度。

3、但现有方法较依赖语言模型提取的初始文本语义特征且准确率不高,因此本发明旨在解决如何提取更深层次的文本对之间的特征,更准确地表示文本之间关系,以此提高文本识别准确率的问题。


技术实现思路

1、为解决上述技术问题,本发明提供了一种多特征融合的文本相似度判定方法,所述文本相似度判定方法包括以下步骤:

2、步骤1:多特征相似度计算;首先将待评估文本a和对比文本b分别依次经过sentence bert模型,得到待评估文本a和对比文本b的语义向量,分别记为向量[x]和[y];然后计算向量[x]和[y]的余弦相似度;然后待评估文本a和对比文本b进行三次相似度计算,分别得到最短编辑距离相似度、最长公共子序列相似度及jaccard相似度。

3、步骤2:多特征相似度融合处理;首先根据向量[x]和[y]计算得到基于sentencebert的特征向量差[z];然后基于权重向量w1、偏置向量b1,以及基于步骤1得到的余弦相似度、最短编辑距离相似度、最长公共子序列相似度及jaccard相似度,计算得到特征相似度全连接后的处理结果向量[s];最后根据向量[z]和[s],经过多特征融合处理得到结果向量[v]。

4、步骤3:文本相似程度评估:根据步骤2得到的向量[v]、权重向量w2、偏置向量b2,计算得到待评估文本a和对比文本b的相似程度向量,该向量的三个分量分别代表两个文本之间的正常可能性概率,拼凑可能性概率和篡改可能性概率。

5、本发明提供的文本相似度判定方法,在综合考虑文本的文本余弦相似度、编辑最短距离相似度、最长公共子序列相似度和杰卡德相似度等多个维度的相似度特征,在基于sentence-bert模型的网络结构下,实现了多特征融合的文本相似度判定方法。该方法在相似度识别任务上表现出了优异的性能。与传统方法相比,文本相似度的准确性和精确度方面均取得了显著提升。该方法在文本相似度检测领域具有广阔的应用前景,在提高文本抄袭识别准确性和精确度方面具有巨大潜力,并在版权保护和相关领域中具有重要的应用意义。



技术特征:

1.一种多特征融合的文本相似度判定方法,所述文本相似度判定方法包括以下步骤:

2.如权利要求1所述的特征融合的文本相似度判定方法,其特征在于:通过sentencebert模型得到的语义向量记为1×768维的向量[x]和1×768维的向量[y]。

3.如权利要求1所述的特征融合的文本相似度判定方法,其特征在于:基于权重向量w1、偏置向量b1,以及步骤1得到的所述余弦相似度、所述最短编辑距离相似度、所述最长公共子序列相似度及所述jaccard相似度,计算得到特征相似度全连接后的处理结果向量[s]具体包括:所述w1和b1初始值为随机,并在迭代训练处理过程中不断调整优化,最终识别过程使用优化后的w1和b1;其中concat(cos,jac,lcs,ed)表示对所述余弦相似度、所述最短编辑距离相似度、所述最长公共子序列相似度及所述jaccard相似度四个特征相似度进行全连接处理s(1*768)=concat(cos,jac,lcs,ed)*w1+b1。

4.如权利要求1所述的特征融合的文本相似度判定方法,其特征在于:所述w2和b2初始值为随机,在迭代训练处理过程中不断调整优化,最终识别过程使用优化后的w2和b2,所述计算得到待评估文本a和对比文本b的相似程度向量,通过softmax函数进行归一化处理,得到概率分布向量;


技术总结
本发明提供了一种文本相似度判定方法,该方法在综合考虑文本的文本余弦相似度、编辑最短距离相似度、最长公共子序列相似度和杰卡德相似度等多个维度的相似度特征,在基于Sentence‑BERT模型的网络结构下,实现了多特征融合的文本相似度判定方法。该方法在相似度识别任务上表现出了优异的性能。与传统方法相比,文本相似度的准确性和精确度方面均取得了显著提升。该方法在文本相似度检测领域具有广阔的应用前景,在提高文本抄袭识别准确性和精确度方面具有巨大潜力,并在版权保护和相关领域中具有重要的应用意义。

技术研发人员:沈永珞,林泽禧
受保护的技术使用者:广东财经大学
技术研发日:
技术公布日:2024/5/29
转载请注明原文地址:https://win.8miu.com/read-1155832.html

最新回复(0)