本技术涉及数字信号处理及深度学习,尤其涉及一种模型训练及多通道语音增强方法、装置及设备。
背景技术:
1、在车载系统的通信和交互设计中,音区分离技术扮演着重要的角色。这种技术使得系统能够在车辆嘈杂的环境中区分和识别出司机或乘客的语音指令以及电话通信中的语音信号。为了实现这一目标,音区分离技术需解决车内噪音、音乐、路面噪声、以及乘客交谈等声源的干扰问题。
2、相关技术中,基于深度神经网络的多通道音区分离模型逐渐成为研究的热点。这些模型利用神经网络的强大表示学习能力,通过训练网络来学习音频信号的特征表示和分离方法。但在车内通话质量方面,线路回声是一个多通道音区分离模型面临的主要难题,该线路回声是由扬声器放出的声音被麦克风捕捉并再次传回通话过程中产生的。为了抑制线路回声,通常采用声学回声消除(acoustic echo cancellation,aec)技术。aec技术通过创建一个模拟的回声信号来抵消麦克风捕获的回声成分。然而,aec技术可能无法完全去除所有回声,特别是在车辆内部环境变化或背景噪声水平变化时。在这种情况下,残余回声抑制(residual echo suppression,res)技术就显得尤为重要,它通过进一步处理已经由aec减少的信号,来降低残余回声对通话质量的影响。
3、基于此,在实际的应用中,为了实现有效的多通道语音增强,通常需要在多通道音区分离模型处理前,先用aec和res技术对音频信号进行预处理,但这个过程极大地降低了多通道语音增强的处理效率,进而影响整体的车载系统用户体验。因此,如何有效抑制线路回声并提升多通道语音增强过程的效率,成为了亟待解决的问题。
技术实现思路
1、本技术提供了一种模型训练及多通道语音增强方法、装置及设备,用于解决现有无法在保证多通道语音增强效率的情况下有效抑制线路回声的问题。
2、第一方面,本技术提供了一种多通道音区分离模型的训练方法,所述方法包括:
3、将目标型号车辆的样本音频库中的任一多通道音频样本以及所述目标型号车辆的样本噪声库中的至少一条多通道噪声样本混合,得到多通道含噪音频样本;其中,所述多通道音频样本包括模拟多通道音频数据以及采集多通道音频数据,所述样本噪声库中的多通道噪声样本包括模拟多通道噪声数据以及采集多通道噪声数据;
4、通过原始多通道音区分离模型中包含有密集连接块的编码器,基于所述多通道含噪音频样本对应的语音特征,获取与空间信息关联的高维特征向量;
5、通过所述原始多通道音区分离模型中的瓶颈层,基于所述编码器中最后一级处理单元输出的高维特征向量,获取瓶颈层特征表示;
6、通过所述原始多通道音区分离模型中包含有密集连接块的解码器,基于所述高维特征向量以及所述瓶颈层特征表示,获取预测语音特征;
7、基于所述多通道音频样本以及所述预测语音特征,对所述原始多通道音区分离模型进行训练,以得到所述目标型号车辆的训练完成的多通道音区分离模型。
8、第二方面,本技术还提供了一种基于上述多通道音区分离模型的多通道语音增强方法,所述方法包括:
9、获取从目标型号车辆采集到的待处理的多通道语音数据以及预先为所述目标型号车辆训练的多通道音区分离模型;
10、通过所述多通道音区分离模型中包含有密集连接块的编码器,基于所述多通道语音数据对应的语音特征,获取与空间信息关联的高维特征向量;
11、通过所述多通道音区分离模型中的瓶颈层,基于所述编码器中最后一级处理单元输出的高维特征向量,获取瓶颈层特征表示;
12、通过所述多通道音区分离模型中包含有密集连接块的解码器,基于所述高维特征向量以及所述瓶颈层特征表示,获取还原语音特征;
13、基于所述还原语音特征,确定所述多通道语音数据对应的增强多通道语音数据。
14、第三方面,本技术还提供了一种多通道音区分离模型的训练装置,所述装置包括:
15、获取单元,用于将目标型号车辆的样本音频库中的任一多通道音频样本以及所述目标型号车辆的样本噪声库中的至少一条多通道噪声样本混合,得到多通道含噪音频样本;其中,所述多通道音频样本包括模拟多通道音频数据以及采集多通道音频数据,所述样本噪声库中的多通道噪声样本包括模拟多通道噪声数据以及采集多通道噪声数据;
16、编码单元,用于通过原始多通道音区分离模型中包含有密集连接块的编码器,基于所述多通道含噪音频样本对应的语音特征,获取与空间信息关联的高维特征向量;
17、瓶颈层单元,用于通过所述原始多通道音区分离模型中的瓶颈层,基于所述编码器中最后一级处理单元输出的高维特征向量,获取瓶颈层特征表示;
18、解码单元,用于通过所述原始多通道音区分离模型中包含有密集连接块的解码器,基于所述高维特征向量以及所述瓶颈层特征表示,获取预测语音特征;
19、训练单元,用于基于所述多通道音频样本以及所述预测语音特征,对所述原始多通道音区分离模型进行训练,以得到所述目标型号车辆的训练完成的多通道音区分离模型。
20、第四方面,本技术还提供了一种基于上述所述多通道音区分离模型的多通道语音增强装置,所述装置包括:
21、获取模块,用于获取从目标型号车辆采集到的待处理的多通道语音数据以及预先为所述目标型号车辆训练的多通道音区分离模型;
22、处理模块,用于通过所述多通道音区分离模型中包含有密集连接块的编码器,基于所述多通道语音数据对应的语音特征,获取与空间信息关联的高维特征向量;通过所述多通道音区分离模型中的瓶颈层,基于所述编码器中最后一级处理单元输出的高维特征向量,获取瓶颈层特征表示;通过所述多通道音区分离模型中包含有密集连接块的解码器,基于所述高维特征向量以及所述瓶颈层特征表示,获取还原语音特征;
23、确定模块,用于基于所述还原语音特征,确定所述多通道语音数据对应的增强多通道语音数据。
24、第五方面,本技术提供了一种计算机设备,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如上述所述多通道音区分离模型的训练方法的步骤,或,实现如上述所述多通道语音增强方法的步骤。
25、第六方面,本技术提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现如上述所述多通道音区分离模型的训练方法的步骤,或,实现如上述所述多通道语音增强方法的步骤。
26、本技术的有益效果如下:
27、1、由于多通道音频样本包括模拟多通道音频数据以及采集多通道音频数据,且样本噪声库中的多通道噪声样本包括模拟多通道噪声数据以及采集多通道噪声数据,使得获取到的多通道含噪音频样本不仅增强了数据多样性,还考虑了真实世界中目标型号车辆的噪声环境条件,比如线路回声以及多通道漏音等,而在此基础上所训练的多通道音区分离模型更具鲁棒性且更加适应真实世界中目标型号车辆的噪声环境条件,从而更好的为目标型号车辆提供服务,有效抑制线路回声以及避免多通道间漏音问题。
28、2、通过该多通道音区模型即可对采集的到多通道语音信号进行处理,无需提前进行线路回声去除,提高了语音增强的效率。
29、3、由于原始多通道音区分离模型使用包含密集连接块的编码器,通过该编码器可以使原始多通道音区分离模型有效地捕获与空间信息相关的高维特征,这些高维特征包含了丰富的上下文信息,有利于正确分离多通道音频信号中的目标声源和噪声,并且还有利于解决在发音人音量较小时导致的语音损伤和噪声残留问题。
30、4、由于原始多通道音区分离模型使用包含密集连接块的解码器,该解码器有助于改善特征的信息流动,有效地从高维特征中重建预测语音特征,提高音区分离的准确度和质量。
1.一种多通道音区分离模型的训练方法,其特征在于,所述方法包括:
2.如权利要求1所述的方法,其特征在于,所述采集多通道音频数据包括第一多通道音频数据以及第二多通道音频数据;其中,所述第一多通道音频数据是通过将所述目标型号车辆中对应不同区域且来自不同发音人的单发音人音频数据混合获取到的,所述单发音人音频数据是在所述目标型号车辆未开启车内通信系统的情况下采集的,所述第二多通道音频数据是在所述目标型号车辆开启所述车内通信系统的情况下,对采集到的多通道多发音人音频数据进行线路回声去除处理后获取到的。
3.如权利要求1所述的方法,其特征在于,获取所述模拟多通道音频数据,包括:
4.如权利要求1所述的方法,其特征在于,所述编码器和所述解码器之间采用所述瓶颈层连接,所述编码器和所述解码器具有数量相同的多级处理单元,同一级的处理单元之间设置有层间跳跃连接。
5.如权利要求4所述的方法,其特征在于,任一处理单元包括归一化层、激活层以及至少一个密集连接块,任一密集连接块包括至少一个卷积神经网络,所述至少一个卷积神经网络依次连接,所述归一化层的输入与所述密集连接块的最后一个卷积神经网络的输出连接,所述激活层的输入与所述归一化层的输出连接。
6.如权利要求1所述的方法,其特征在于,所述瓶颈层包括至少一个长短期记忆网络、残差网络以及重连接层,所述至少一个长短期记忆网络依次连接,所述残差网络的输入与最后一个长短期记忆网络的输出连接,所述残差网络的输出与所述重连接层的输入连接。
7.一种基于权利要求1-6任一所述多通道音区分离模型的多通道语音增强方法,其特征在于,所述方法包括:
8.一种多通道音区分离模型的训练装置,其特征在于,所述装置包括:
9.一种基于权利要求1-6任一所述多通道音区分离模型的多通道语音增强装置,其特征在于,所述装置包括:
10.一种计算机设备,其特征在于,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如上述权利要求1-6任一所述多通道音区分离模型的训练方法的步骤,或,实现如上述权利要求7所述多通道语音增强方法的步骤。