用于实时通讯的字幕生成方法、系统、存储介质及电子设备与流程

专利检索2025-07-19 46

本公开涉及计算机，尤其涉及一种用于实时通讯的字幕生成方法、系统及存储介质。

背景技术：

1、目前，传统的音视频通话系统主要侧重于提供基本的语音和视频通讯功能。这些系统在跨语言交流方面存在明显的局限性，不能提供实时翻译和字幕生成的功能。翻译功能和字幕功能不与p2p音视频通话集成，用户需要分别使用这些应用，从而降低了整体用户体验。在实时字幕生成方面，传统语音识别技术在面对复杂环境和多语言情境时存在准确性和实时性的挑战。

技术实现思路

1、有鉴于此，本公开的目的在于提出一种用于实时通讯的字幕生成方法、系统、存储介质及电子设备，解决了音视频通讯中无法适应多语言环境的问题。

2、为了实现上述公开目的之一，本公开提供了一种用于实时通讯的字幕生成方法，所述方法包括：

3、获取语音资料和对应的文本资料；

4、基于所述语音资料和所述文本资料，对语音识别模型进行训练；

5、批量获取第一语言和第二语言中相同含义对应的句子对；

6、基于所述句子对，对翻译模型进行训练；

7、获取实时通讯的语音信号；

8、利用训练后的所述语音识别模型识别所述语音信号，生成所述第一语言对应的文字；

9、利用训练后的所述翻译模型识别所述第一语言对应的文字，生成第二语言对应的文字并作为字幕。

10、作为本公开一实施方式的进一步改进，所述基于所述语音资料和所述文本资料，对语音识别模型进行训练，包括：处理所述语音资料，得到所述语音资料的频谱特征；

11、根据多个所述语音资料和所述文本资料的对应关系转换为所述频谱特征与所述文本资料之间的多个映射关系；

12、选取部分所述映射关系作为验证集；

13、基于所述验证集计算损失函数，对所述语音识别模型进行训练。

14、作为本公开一实施方式的进一步改进，所述处理所述语音资料，得到所述语音资料的频谱特征，还包括：

15、对所述语音资料进行预处理，所述预处理包括降噪、滤波或增强的至少一种；

16、利用梅尔频率倒谱系数对预处理后的语音资料进行特征提取，得到所述频谱特征。

17、作为本公开一实施方式的进一步改进，所述基于所述句子对，对翻译模型进行训练，包括：

18、处理所述句子对，得到所述句子对的向量特征；

19、利用自然语言处理技术，识别所述句子对的上下文的语义关系；

20、选取初始翻译模型，初始化所述初始翻译模型的参数；

21、利用所述句子对的向量特征训练所述初始翻译模型，得到所述翻译模型；

22、引入上下文的所述语义关系，优化所述翻译模型。

23、作为本公开一实施方式的进一步改进，所述处理所述句子对，得到所述句子对的向量特征，包括：

24、预处理所述句子对，得到统一格式的句子对，所述预处理包括去除标点符号或转换大小写中的至少一项；

25、对所述句子对进行分词，得到词语；

26、将所述词语映射为向量特征。

27、作为本公开一实施方式的进一步改进，所述批量获取第一语言和第二语言中相同含义对应的句子对，包括：

28、获取所述句子对的来源包括翻译公司的数据库、已有的双语文本资源或互联网上的翻译服务中的至少一项。

29、作为本公开一实施方式的进一步改进，获取实时视频并进行编码，得到视频流；

30、由第一客户端发送所述视频流，由第二客户端接收所述视频流；

31、解码所述视频流并由所述第二客户端播放视频；

32、所述获取实时通讯的语音信号之前，还包括：

33、获取音频并进行编码，得到音频流；

34、由所述第一客户端发送所述音频流，由所述第二客户端接收所述音频流；

35、将所述音频流转换为语音信号并由所述第二客户端播放音频。

36、基于相同的发明构思，本公开还提供了一种用于实时通讯的字幕生成系统，包括：第一获取模块，用于获取语音资料和对应的文本资料；

37、第一训练模块，用于基于所述语音资料和所述文本资料，对语音识别模型进行训练；

38、第二获取模块，用于批量获取第一语言和第二语言中相同含义对应的句子对；

39、第二训练模块，用于基于所述句子对，对翻译模型进行训练；

40、第三获取模块，用于获取实时通讯的语音信号；

41、第一生成模块，用于利用训练后的所述语音识别模型识别所述语音信号，生成所述第一语言对应的文字；

42、第二生成模块，用于利用训练后的所述翻译模型识别所述第一语言对应的文字，生成第二语言对应的文字并作为字幕。

43、基于同样的发明构思，本公开还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使计算机执行上述任一所述的用于实时通讯的字幕生成方法。

44、基于同样的发明构思，本公开还提供了一种电子设备，包括：处理器和存储器；所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如上述任一所述用于实时通讯的字幕生成方法的步骤。

45、相对于现有技术，本发明的技术效果在于：本公开通过训练语音识别模型，是语音识别模型具有将语音转化为文字的能力，再通过训练翻译模型，将第一语言的文字翻译成第二语言的文字，使通讯的各方可以使用多种语言交流，通过字幕展示的形式理解对方的语音信息，本方案中具有实时翻译的功能，扩大了通讯的适用范围，还具有字幕生成集成的功能，提高交流的准确性，提高用户体验。

技术特征：

1.一种用于实时通讯的字幕生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的用于实时通讯的字幕生成方法，其特征在于，所述基于所述语音资料和所述文本资料，对语音识别模型进行训练，包括：

3.根据权利要求2所述的用于实时通讯的字幕生成方法，其特征在于，所述处理所述语音资料，得到所述语音资料的频谱特征，还包括：

4.根据权利要求1所述的用于实时通讯的字幕生成方法，其特征在于，所述基于所述句子对，对翻译模型进行训练，包括：

5.根据权利要求4所述的用于实时通讯的字幕生成方法，其特征在于，所述处理所述句子对，得到所述句子对的向量特征，包括：

6.根据权利要求1所述的用于实时通讯的字幕生成方法，其特征在于，所述批量获取第一语言和第二语言中相同含义对应的句子对，包括：

7.根据权利要求1所述的用于实时通讯的字幕生成方法，其特征在于，还包括：

8.一种用于实时通讯的字幕生成系统，其特征在于，所述系统包括：

9.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使计算机执行权利要求1至7任一所述的用于实时通讯的字幕生成方法。

10.一种电子设备，其特征在于，包括：处理器和存储器；

技术总结
本公开提供一种用于实时通讯的字幕生成方法、系统、存储介质及电子设备。方法包括：获取语音资料和对应的文本资料；基于所述语音资料和所述文本资料，对语音识别模型进行训练；批量获取第一语言和第二语言中相同含义对应的句子对；基于所述句子对，对翻译模型进行训练；获取实时通讯的语音信号；利用训练后的所述语音识别模型识别所述语音信号，生成所述第一语言对应的文字；利用训练后的所述翻译模型识别所述第一语言对应的文字，生成第二语言对应的文字并作为字幕。解决了音视频通讯中无法适应多语言环境的问题。

技术研发人员：孔祥博,刘贺
受保护的技术使用者：中科世通亨奇（北京）科技有限公司
技术研发日：
技术公布日：2024/5/29

转载请注明原文地址:https://win.8miu.com/read-1156586.html

专利

最新回复(0)