本申请涉及数据处理,尤其涉及一种数据处理方法、装置、设备、存储介质及程序产品。
背景技术:
1、随着数字媒体的普及,新闻平台和媒体渠道不断涌现,为公众提供了丰富多样的新闻内容,许多用户希望获取新闻的追踪报道。因此,目前通过事件脉络对新闻进行报道,但是,当前的事件脉络构建依赖于运营人员预设的框架和关键词召回机制,这不仅导致事件脉络更新缓慢、不够灵活,还可能因为关键词设置不全面,导致部分重要新闻内容被遗漏,影响事件脉络的完整性。
技术实现思路
1、为了解决上述问题,本申请提出一种数据处理方法、装置、设备、存储介质及程序产品,能够显著提升事件脉络的更新速度和灵活性,保证了事件脉络的完整性。
2、根据本申请实施例的第一方面,提供了一种数据处理方法,包括:
3、基于新闻文本确定对应的新闻摘要;
4、基于所述新闻摘要在增长数据库中确定对应的新闻簇,将所述新闻摘要添加至所述新闻簇并对所述新闻簇进行更新,得到第一新闻簇;所述增长数据库用于存储在预设时间段内发生更新的新闻簇;
5、在所述新闻簇不属于任何事件且所述新闻簇是在所述增长数据库中确定出唯一的新闻簇的情况下,根据所述第一新闻簇在封闭数据库中确定与所述第一新闻簇相关的第二新闻簇;其中,所述封闭数据库用于存储在预设时间段内未发生更新的新闻簇;
6、基于所述第一新闻簇和所述第二新闻簇构建事件脉络。
7、优选地,所述基于所述第一新闻簇和所述第二新闻簇构建事件脉络,包括:
8、在所述第二新闻簇属于第一事件的情况下,将所述第一新闻簇确定为所述第一事件的下一事件节点,生成事件脉络。
9、在一种实施方式中所述基于所述第一新闻簇和所述第二新闻簇构建事件脉络,包括:
10、在所述第二新闻簇不属于任何事件的情况下,构建第二事件;
11、根据新闻簇的时间顺序对所述第一新闻簇和所述第二新闻簇进行排序,生成所述第二事件的事件脉络。
12、优选地,所述方法还包括:
13、在基于所述新闻摘要在增长数据库中确定多个新闻簇的情况下,在所述增长数据库中利用所述第一新闻簇代替所述多个新闻簇。
14、优选地,所述方法还包括:
15、按照预设时间间隔对所述增长数据库中的新闻簇进行扫描,将未发生更新的新闻簇确定为所述封闭数据库的新闻簇。
16、优选地,所述基于所述新闻摘要在增长数据库中确定对应的新闻簇,包括:
17、根据大语言模型中的嵌入层确定所述新闻摘要对应的词向量;其中,所述大语言模型用于对所述增长数据库中新闻簇的各个新闻文本生成对应的摘要;
18、根据所述新闻摘要对应的词向量在增长数据库中确定对应的新闻簇。
19、优选地,所述根据所述新闻簇和所述新闻摘要生成第一新闻簇,包括:
20、对每个新闻簇的中心向量和每个新闻簇的元素数量进行计算,得到所述新闻簇的向量和;
21、对所述新闻簇的向量和所述新闻摘要对应的嵌入向量进行加权计算,得到第一新闻簇的中心向量。
22、根据本申请实施例的第二方面,提供了一种数据处理装置,包括:
23、摘要提取模块,用于基于新闻文本确定对应的新闻摘要;
24、第一处理模块,用于基于所述新闻摘要在增长数据库中确定对应的新闻簇,将所述新闻摘要添加至所述新闻簇并对所述新闻簇进行更新,得到第一新闻簇;所述增长数据库用于存储在预设时间段内发生更新的新闻簇;
25、第二处理模块,用于在所述新闻簇不属于任何事件且所述新闻簇是在所述增长数据库中确定出唯一的新闻簇的情况下,根据所述第一新闻簇在封闭数据库中确定与所述第一新闻簇相关的第二新闻簇;其中,所述封闭数据库用于存储在预设时间段内未发生更新的新闻簇;
26、构建模块,用于基于所述第一新闻簇和所述第二新闻簇构建事件脉络。
27、本申请第三方面提供了一种电子设备,包括:
28、存储器和处理器;
29、所述存储器与所述处理器连接,用于存储程序;
30、所述处理器,通过运行所述存储器中的程序,实现上述的数据处理方法。
31、本申请第四方面提供了一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时,实现上述的数据处理方法。
32、本申请第五方面提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述的数据处理方法。
33、上述申请中的一个实施例具有如下优点或有益效果:
34、基于新闻文本确定对应的新闻摘要;基于新闻摘要在增长数据库中确定对应的新闻簇,将新闻摘要添加至新闻簇并对新闻簇进行更新,得到第一新闻簇;增长数据库用于存储在预设时间段内发生更新的新闻簇;在新闻簇不属于任何事件且新闻簇是在增长数据库中确定出唯一的新闻簇的情况下,根据第一新闻簇在封闭数据库中确定与第一新闻簇相关的第二新闻簇;其中,封闭数据库用于存储在预设时间段内未发生更新的新闻簇;基于第一新闻簇和第二新闻簇构建事件脉络。如此,将获取到的新闻文本主动分配至对应的事件脉络中,提升了事件脉络的更新速度和灵活性,从而保证了事件脉络的完整性。
1.一种数据处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一新闻簇和所述第二新闻簇构建事件脉络,包括:
3.根据权利要求1所述的方法,其特征在于,所述基于所述第一新闻簇和所述第二新闻簇构建事件脉络,包括:
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
6.根据权利要求1所述的方法,其特征在于,所述基于所述新闻摘要在增长数据库中确定对应的新闻簇,包括:
7.根据权利要求1-6中任一项所述的方法,其特征在于,所述根据所述新闻簇和所述新闻摘要生成第一新闻簇,包括:
8.一种数据处理装置,其特征在于,包括:
9.一种电子设备,其特征在于,包括:
10.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时,实现如权利要求1至7中任意一项所述的数据处理方法。
11.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如权利要求1至7中任意一项所述的数据处理方法。
