本公开涉及人工智能,尤其涉及自然语言处理和深度学习等,具体涉及一种视频摘要生成方法、视频摘要生成装置、电子设备、计算机可读存储介质和计算机程序产品。
背景技术:
1、人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、神经网络模型的训练、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括自然语言处理技术、计算机视觉技术、语音识别技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
2、在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。
技术实现思路
1、本公开提供了一种视频摘要生成方法、视频摘要生成装置、电子设备、计算机可读存储介质和计算机程序产品。
2、根据本公开的一方面,提供了一种视频摘要生成方法,包括:确定目标视频中的多个字幕,多个字幕各自具有字幕时间戳;基于时间顺序,将多个字幕划分为多个分组,多个分组中的每一个分组包括多个字幕中的至少一部分字幕;针对多个分组中的每一个分组,利用文本处理模型对该分组所包括的至少一部分字幕和对应的字幕时间戳执行摘要生成任务,以得到多个分组各自的第一处理结果,其中,摘要生成任务指示基于待处理的多个文本条目各自的时间戳,对多个文本条目进行段落划分,并为划分得到的段落生成摘要和时间戳,第一处理结果包括对应的分组的至少一个候选分段摘要和至少一个候选分段摘要各自的候选分段时间戳;将多个分组各自的第一处理结果进行汇总,得到多个候选分段摘要和多个候选分段摘要各自的候选分段时间戳;以及利用文本处理模型对多个候选分段摘要和多个候选分段摘要各自的候选分段时间戳执行摘要生成任务,以得到第二处理结果,其中,第二处理结果包括多个目标分段摘要和多个目标分段摘要各自的目标分段时间戳。
3、根据本公开的另一方面,提供了一种视频摘要生成装置,包括:确定单元,被配置为确定目标视频中的多个字幕,多个字幕各自具有字幕时间戳;划分单元,被配置为基于时间顺序,将多个字幕划分为多个分组,多个分组中的每一个分组包括多个字幕中的至少一部分字幕;第一摘要生成单元,被配置为针对多个分组中的每一个分组,利用文本处理模型对该分组所包括的至少一部分字幕和对应的字幕时间戳执行摘要生成任务,以得到多个分组各自的第一处理结果,其中,摘要生成任务指示基于待处理的多个文本条目各自的时间戳,对多个文本条目进行段落划分,并为划分得到的段落生成摘要和时间戳,第一处理结果包括对应的分组的至少一个候选分段摘要和至少一个候选分段摘要各自的候选分段时间戳;汇总单元,被配置为将多个分组各自的第一处理结果进行汇总,得到多个候选分段摘要和多个候选分段摘要各自的候选分段时间戳;以及第二摘要生成单元,被配置为利用文本处理模型对多个候选分段摘要和多个候选分段摘要各自的候选分段时间戳执行摘要生成任务,以得到第二处理结果,其中,第二处理结果包括多个目标分段摘要和多个目标分段摘要各自的目标分段时间戳。
4、根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中存储器存储有可被至少一个处理器执行的指令,这些指令被至少一个处理器执行,以使至少一个处理器能够执行上述方法。
5、根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行上述方法。
6、根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,其中,计算机程序在被处理器执行时实现上述方法。
7、根据本公开的一个或多个实施例,本公开通过先将目标视频中的字幕进行分组,并在组内利用文本处理模型进行段落划分和段落摘要生成,再在将不同组的段落摘要汇总后利用文本处理模型进行进一步的段落划分和段落摘要生成,同时在模型推理过程中使用时间戳作为辅助信息,使得能够显著提升最终得到的视频分段摘要的质量。
8、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
1.一种视频摘要生成方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,基于时间顺序,将所述多个字幕划分为多个分组包括:
3.根据权利要求2所述的方法,其特征在于,基于所述多个字幕各自的信息增益,在所述多个字幕中确定至少一个分组起点字幕包括:
4.根据权利要求1-3中任一项所述的方法,其特征在于,针对所述多个分组中的每一个分组,利用文本处理模型对该分组所包括的至少一部分字幕和对应的字幕时间戳执行摘要生成任务,以得到所述多个分组各自的第一处理结果包括:
5.根据权利要求4所述的方法,其特征在于,利用所述文本处理模型,在所述多个分组中的每一个分组的多个候选第一处理结果中确定该分组的第一处理结果包括:
6.根据权利要求4所述的方法,其特征在于,所述多组模型推理参数包括多组温度系数。
7.根据权利要求4所述的方法,其特征在于,所述多组模型推理参数包括多组随机种子。
8.根据权利要求1-3中任一项所述的方法,其特征在于,所述多个字幕是通过对从所述目标视频中抽帧得到的多个目标帧进行光学字符识别后,将满足预设位置要求的文本块的文本信息进行汇总而得到的,所述多个字幕各自具有的字幕时间戳基于对应的目标帧的视频帧时间戳。
9.根据权利要求8所述的方法,其特征在于,所述汇总包括将从相邻的目标帧中识别得到的相同的文本信息进行合并,并保留最早出现的文本信息对应的目标帧的视频帧时间戳。
10.根据权利要求1-3中任一项所述的方法,其特征在于,所述文本处理模型为大规模语言模型。
11.一种视频摘要生成装置,其特征在于,所述装置包括:
12.根据权利要求11所述的装置,其特征在于,所述划分单元包括:
13.根据权利要求12所述的装置,其特征在于,所述第二确定子单元包括:
14.根据权利要求11-13中任一项所述的装置,其特征在于,所述第一摘要生成单元包括:
15.根据权利要求14所述的装置,其特征在于,所述第四确定子单元被配置为利用所述文本处理模型,对所述多个分组各自的多个候选第一处理结果执行全局优化选择任务,以得到全局优化处理结果组合,其中,所述全局优化选择任务指示基于所述多个字幕和对应的时间戳以及不同分组的候选第一处理结果之间的连贯程度生成所述全局优化处理结果组合,所述全局优化处理结果组合表征对所述多个分组各自的多个候选第一处理结果的其中一个候选第一处理结果的选择。
16.根据权利要求14所述的装置,其特征在于,所述多组模型推理参数包括多组温度系数。
17.根据权利要求14所述的装置,其特征在于,所述多组模型推理参数包括多组随机种子。
18.根据权利要求11-13中任一项所述的装置,其特征在于,所述多个字幕是通过对从所述目标视频中抽帧得到的多个目标帧进行光学字符识别后,将满足预设位置要求的文本块的文本信息进行汇总而得到的,所述多个字幕各自具有的字幕时间戳基于对应的目标帧的视频帧时间戳。
19.根据权利要求18所述的装置,其特征在于,所述汇总包括将从相邻的目标帧中识别得到的相同的文本信息进行合并,并保留最早出现的文本信息对应的目标帧的视频帧时间戳。
20.根据权利要求11-13中任一项所述的装置,其特征在于,所述文本处理模型为大规模语言模型。
21.一种电子设备,其特征在于,所述电子设备包括:
22.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行根据权利要求1-10中任一项所述的方法。
23.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序在被处理器执行时实现权利要求1-10中任一项所述的方法。