音频的处理方法、电子设备、存储介质及计算机程序产品与流程

专利检索2025-07-23 38

本公开涉及数据处理领域，特别涉及一种音频的处理方法、电子设备、存储介质及计算机程序产品。

背景技术：

1、干净的音频数据是实现语音合成、语义理解等技术的基础，因此在接收到用户音频之后，需要对原始音频进行清洗，以提出原始音频中与语义无关的无效词，例如语气词等。

2、在相关技术中，通常是调用语音识别模块对原始音频进行识别，并计算字错误率，筛选字错误率小于错误率阈值的原始音频作为干净的音频数据。但是，前述方式不能识别原始音频中的口语化内容，因此难以对原始音频中的语气词进行精准剔除，清洗效果较差。若对原始音频进行语气词标注，倒是可以获得质量较好的音频数据，但是数据清洗的过程会产生较大的人力和物力成本。

技术实现思路

1、为了解决前述问题的至少之一，本公开提供了一种音频的处理方法、电子设备、存储介质及计算机程序产品。

2、根据本公开的一个方面提供了一种音频的处理方法，包括：根据原始音频的源文本，搭建具有回退节点和回退路径的对齐构图；基于所述对齐构图，将所述源文本调整为与所述原始音频相应的转录文本，并形成用于表征所述转录文本与所述原始音频之间对应关系的音频对齐数据；以及根据所述音频对齐数据，在所述原始音频中剔除与所述转录文本的无效字符关联的音节帧，获得目标音频。

3、在一些实施方式中，所述根据原始音频的源文本，搭建具有回退节点和回退路径的对齐构图，包括：根据所述源文本的字符序列，构建具有指向路径的多个字符节点；设置所述回退节点；搭建任一所述字符节点与所述回退节点之间的所述回退路径；整合多个所述字符节点、多个所述指向路径、所述回退节点和多个所述回退路径，形成所述对齐构图。

4、在一些实施方式中，所述基于所述对齐构图，将所述源文本调整为与所述原始音频相应的转录文本，并形成用于表征所述转录文本与所述原始音频之间对应关系的音频对齐数据，包括：根据所述原始音频的音节帧序列，依序触发所述对齐构图中的指向路径，逐一将所述音节帧序列中的各个音节帧对齐至所述对齐构图中相应的字符节点；依所述音节帧序列，将与至少一个所述音节帧相对齐的所述字符节点进行汇总，形成所述转录文本；将所述转录文本中任一所述字符节点以及相应的至少一个所述音节帧合并为一组字符音节组，获得包含多个字符音节组的所述音频对齐数据。

5、在一些实施方式中，所述根据所述原始音频的音节帧序列，依序触发所述对齐构图中的指向路径，逐一将所述音节帧序列中的各个音节帧对齐至所述对齐构图中相应的字符节点，包括：响应于任一所述音节帧的关联字符与所述指向路径对应的所述字符节点存在差异，将所述音节帧作为差异帧；调用所述回退路径将所述差异帧反馈至所述回退节点，由所述回退节点根据所述差异帧的差异类别选择吸收策略；以及根据所述吸收策略中的目标节点和目标路径，触发所述差异帧沿着所述目标路径对齐至所述目标节点。

6、在一些实施方式中，所述调用所述回退路径将所述差异帧反馈至所述回退节点，由所述回退节点根据所述差异帧的差异类别选择吸收策略，包括：响应于所述差异类别为无关插入类别，为所述差异帧配置第一吸收策略，包括：以所述差异帧的差异音节作为所述目标节点，并构建所述目标节点与所述回退节点之间的所述目标路径；或者响应于所述差异类别为关联异常类别，为所述差异帧配置第二吸收策略，包括：确定所述音节帧序列中位于所述差异帧的相邻后位音节帧，并以所述相邻后位音节帧所关联的所述字符节点作为目标节点，构建所述目标节点与所述回退节点之间的目标路径。

7、在一些实施方式中，所述根据所述音频对齐数据，在所述原始音频中剔除与所述转录文本的无效字符关联的音节帧，获得目标音频，包括：识别所述转录文本中的所述无效字符；基于所述音频对齐数据，识别与所述无效字符相对应的多个所述音节帧，其中所述音节帧具有发音时间信息；删除所述原始音频中的多个所述音节帧，获得所述目标音频。

8、在一些实施方式中，在所述根据原始音频的源文本，搭建具有回退节点和回退路径的对齐构图之前，包括：调用声学模型对所述原始音频进行音节识别，获得对应于所述原始音频的音节帧序列。

9、根据本公开的另一个方面提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，以实现如上述任一实施方式所述的音频的处理方法。

10、根据本公开的又一个方面提供了一种可读存储介质，所述可读存储介质存储有计算机程序，所述计算机程序适于处理器进行加载，以执行如上述任一实施方式所述的音频的处理方法。

11、根据本公开再一个方面提供了一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现如上述任一实施方式所述的音频的处理方法。

技术特征：

1.一种音频的处理方法，其特征在于，包括：

2.根据权利要求1所述的音频的处理方法，其特征在于，所述根据原始音频的源文本，搭建具有回退节点和回退路径的对齐构图，包括：

3.根据权利要求1所述的音频的处理方法，其特征在于，所述基于所述对齐构图，将所述源文本调整为与所述原始音频相应的转录文本，并形成用于表征所述转录文本与所述原始音频之间对应关系的音频对齐数据，包括：

4.根据权利要求3所述的音频的处理方法，其特征在于，所述根据所述原始音频的音节帧序列，依序触发所述对齐构图中的指向路径，逐一将所述音节帧序列中的各个音节帧对齐至所述对齐构图中相应的字符节点，包括：

5.根据权利要求4所述的音频的处理方法，其特征在于，所述调用所述回退路径将所述差异帧反馈至所述回退节点，由所述回退节点根据所述差异帧的差异类别选择吸收策略，包括：

6.根据权利要求1所述的音频的处理方法，其特征在于，所述根据所述音频对齐数据，在所述原始音频中剔除与所述转录文本的无效字符关联的音节帧，获得目标音频，包括：

7.根据权利要求1所述音频的处理方法，其特征在于，在所述根据原始音频的源文本，搭建具有回退节点和回退路径的对齐构图之前，包括：

8.一种电子设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，以实现如权利要求1至7中任一项所述的音频的处理方法。

9.一种可读存储介质，其特征在于，所述可读存储介质存储有计算机程序，所述计算机程序适于处理器进行加载，以执行如权利要求1至7中任一项所述的音频的处理方法。

10.一种计算机程序产品，包括计算机程序/指令，其特征在于，所述计算机程序/指令被处理器执行时实现权利要求1至7中任一项所述的音频的处理方法。

技术总结
本公开提供了一种音频的处理方法，包括：根据原始音频的源文本，搭建具有回退节点和回退路径的对齐构图；基于对齐构图，将源文本调整为与原始音频相应的转录文本，并形成用于表征转录文本与原始音频之间对应关系的音频对齐数据；以及根据音频对齐数据，在原始音频中剔除与转录文本的无效字符关联的音节帧，获得目标音频。本公开还提供一种电子设备、存储介质及计算机程序产品。

技术研发人员：宋莎莎,魏光辉
受保护的技术使用者：上海墨百意信息科技有限公司
技术研发日：
技术公布日：2024/5/29

转载请注明原文地址:https://win.8miu.com/read-1156754.html

专利

最新回复(0)