本公开涉及人工智能,更具体地涉及一种文本去重方法、装置、设备、存储介质和程序产品。
背景技术:
1、在大模型技术领域,训练大模型需要大量的数据,高质量的数据可以使大模型训练效果更好。目前获取语料,一般通过从公开数据集下载、网页数据爬取、内部资料收集等。但所有数据汇聚在一起,一定会产生数据重复的问题,重复的数据对大模型训练会产生一定的影响,因此在数据准备时,需要去除重复的数据。相关技术中,一般采用文本内容比对等方式去除,暂无一些比较好的文本去重方法。采用文本内容直接比对,效率慢,且无法做持久化,无法用于对大量的文本去重。
2、需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
1、鉴于上述问题,本公开提供了一种高效的文本去重方法、装置、设备、存储介质和程序产品。
2、根据本公开的第一个方面,提供了一种文本去重方法,所述方法包括:
3、响应于数据去重服务请求,获取待处理文本;
4、计算所述待处理文本的模糊哈希值;
5、根据所述模糊哈希值在数据库中查询与所述待处理文本相似的文本数据,所述数据库存储有历史文本的描述信息、摘要信息和模糊哈希值;
6、若确定存在与所述待处理文本重复的文本数据,将所述待处理文本的状态标记为重复;以及
7、对状态标记为重复的文本进行去重操作。
8、根据本公开的实施例,所述计算所述待处理文本的模糊哈希值包括:
9、对所述待处理文本进行分块操作;
10、分别计算每个分块的哈希值;以及
11、根据所述每个分块的哈希值生成所述待处理文本的模糊哈希值。
12、根据本公开的实施例,所述对所述待处理文本进行分块操作包括:
13、根据所述待处理文本长度和所述待处理文本实际内容确定分片条件值;以及
14、根据所述分片条件值对所述待处理文本进行分块操作。
15、根据本公开的实施例,所述根据所述模糊哈希值在数据库中查询与所述待处理文本相似的文本数据包括:
16、根据所述模糊哈希值计算所述待处理文本与数据库中历史文本的相似度;以及
17、若所述相似度大于第一预设阈值,则确定存在与所述待处理文本相似的文本数据。
18、根据本公开的实施例,所述根据所述模糊哈希值计算所述待处理文本与数据库中历史文本的相似度包括:
19、在数据库中查找文本长度差值小于等于第二预设阈值的目标哈希值;
20、在所述目标哈希值中,使用汉明距离比较哈希值的相似度以确定差异小于等于第三预设阈值的文本。
21、根据本公开的实施例,所述方法还包括:
22、若确定不存在与所述待处理文本重复的文本数据,将所述待处理文本的状态标记为不重复。
23、根据本公开的实施例,还包括:
24、将状态标记为不重复的待处理文本的描述信息、摘要信息和模糊哈希值存储在数据库中。
25、本公开的第二方面提供了一种文本去重装置,所述装置包括:
26、所述装置包括:
27、获取模块,用于响应于数据去重服务请求,获取待处理文本;
28、计算模块,用于计算所述待处理文本的模糊哈希值;
29、查询模块,用于根据所述模糊哈希值在数据库中查询与所述待处理文本相似的文本数据,所述数据库存储有历史文本的描述信息、摘要信息和模糊哈希值;
30、第一确定模块,用于若确定存在与所述待处理文本重复的文本数据,将所述待处理文本的状态标记为重复;以及
31、去重模块,用于对状态标记为重复的文本进行去重操作。
32、根据本公开的实施例,所述计算模块包括:分块子模块、计算子模块和生成子模块。
33、分块子模块,用于对所述待处理文本进行分块操作;
34、第一计算子模块,用于分别计算每个分块的哈希值;以及
35、生成子模块,用于根据所述每个分块的哈希值生成所述待处理文本的模糊哈希值。
36、根据本公开的实施例,所述分块子模块包括第一确定单元和分块单元。
37、第一确定单元,用于根据所述待处理文本长度和所述待处理文本实际内容确定分片条件值;以及
38、分块单元,用于根据所述分片条件值对所述待处理文本进行分块操作。
39、根据本公开的实施例,所述查询模块包括:第二计算子模块和第一确定子模块。
40、第二计算子模块,用于根据所述模糊哈希值计算所述待处理文本与数据库中历史文本的相似度;以及
41、第一确定子模块,用于若所述相似度大于第一预设阈值,则确定存在与所述待处理文本相似的文本数据。
42、根据本公开的实施例,所述第二计算子模块包括:查找单元和第二确定单元,
43、查找单元,用于在数据库中查找文本长度差值小于等于第二预设阈值的目标哈希值;
44、第二确定单元,用于在所述目标哈希值中,使用汉明距离比较哈希值的相似度以确定差异小于等于第三预设阈值的文本。
45、根据本公开的实施例,所述装置还包括:第二确定模块。
46、第二确定模块,用于若确定不存在与所述待处理文本重复的文本数据,将所述待处理文本的状态标记为不重复。
47、根据本公开的实施例,还包括存储模块,
48、存储模块,用于将状态标记为不重复的待处理文本的描述信息、摘要信息和模糊哈希值存储在数据库中。
49、本公开的第三方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得一个或多个处理器执行上述文本去重方法。
50、本公开的第四方面还提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述文本去重方法。
51、本公开的第五方面还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述文本去重方法。
52、通过本公开的实施例提供的一种文本去重方法,响应于数据去重服务请求,获取待处理文本;计算所述待处理文本的模糊哈希值;根据所述模糊哈希值在数据库中查询与所述待处理文本相似的文本数据;通过模糊哈希算法确定待处理文本是否为重复文本,若确定存在与所述待处理文本重复的文本数据,将所述待处理文本的状态标记为重复;以及对状态标记为重复的文本进行去重操作。相较于相关技术,本公开实施例提供的模糊哈希算法能够高效快递的确认文本中存在的部分变化,对重复文本进行去除,快速交付高质量文本。
1.一种文本去重方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述计算所述待处理文本的模糊哈希值包括:
3.根据权利要求2所述的方法,其特征在于,所述对所述待处理文本进行分块操作包括:
4.根据权利要求1所述的方法,其特征在于,所述根据所述模糊哈希值在数据库中查询与所述待处理文本相似的文本数据包括:
5.根据权利要求4所述的方法,其特征在于,所述根据所述模糊哈希值计算所述待处理文本与数据库中历史文本的相似度包括:
6.根据权利要求1至5中任一项的方法,其特征在于,所述方法还包括:
7.根据权利要求6所述的方法,其特征在于,还包括:
8.一种文本去重装置,其特征在于,所述装置包括:
9.一种电子设备,包括:
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现根据权利要求1~7中任一项所述方法的步骤。
11.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现根据权利要求1~7中任一项所述方法的步骤。