本发明涉及声纹识别,尤其涉及一种基于并行特征提取模型的声纹识别方法和系统。
背景技术:
1、如今,随着计算机硬件的快速发展,各类技术也得到广泛的推广。其中,基于深度学习的声纹识别技术在安全认证,个性化场景中得到广泛的应用。例如,智能锁的开门辅助认证,智能家居中对不同成员认证,进行个性化定制服务等等。
2、声纹识别算法一般需要音频特征提取,模型搭建,评分决策三个方面。第一步特征提取有fbank、mfcc、logfbank、lpcc、lpc、lsf等,而声纹识别常用的为fbank,mfcc。深度模型一般搭建分类网络,架构通常为改进的tdnn网络,并采用aam-softmax为损失函数,最后评分决策将成为判断两个模型得到的特征余弦值是否大于设定阈值来判定是否属于认证成员。
3、对于输入通常为mfcc特征或者fbank特征等等的模型,这样单特征输入模型,考虑的音频特征有限,在实际应用中,算法效果鲁棒性差。而对于将特征人为的处理拼接融合作为输入,可能会导致处理过程中,一些特征的丢失,或在模型训练中对于拼接特征的处理能力有限。
4、针对上述的现有技术存在的问题设计一种基于并行特征提取模型的声纹识别方法和系统是本发明研究的目的。
技术实现思路
1、有鉴于此,本发明的目的在于提出一种基于并行特征提取模型的声纹识别方法和系统,能够解决上述的问题。
2、本发明提供一种基于并行特征提取模型的声纹识别方法,包括:
3、对待识别声纹进行重采样,对重采样后的待识别声纹进行特征提取,得到fbank特征和mfcc特征;
4、将所述fbank特征和所述mfcc特征输入到预训练好的并行特征分类模型中进行并行处理,输出得到融合声纹特征;并将用户的原始注册声纹输入到所述并行特征分类模型中,输出得到比对声纹特征;
5、计算所述融合声纹特征和所述比对声纹特征的余弦相似度,当所述余弦相似度大于第一阈值时,确定所述待识别声纹来自注册人员。
6、进一步,所述对待识别声纹进行重采样,对重采样后的待识别声纹进行特征提取,得到fbank特征和mfcc特征,包括:
7、对所述待识别声纹进行的高频部分进行加重,得到加重后的所述待识别声纹;
8、对加重后的所述待识别声纹分为若干短时帧,将每帧短时帧代入汉明窗函数,得到连续的短时帧;
9、对每帧短时帧进行离散傅里叶变换,得到每帧短时帧的频谱,将每帧短时帧的频谱取模平方得到所述待识别声纹的功率谱;
10、通过梅尔滤波器组对所述待识别声纹的功率谱进行滤波得到fbank特征;
11、将所述fbank特征通过离散余弦变换得到mfcc特征。
12、进一步,所述并行特征分类模型的预训练过程具体包括:
13、收集和标记训练声纹,构建声纹训练集;对所述训练声纹进行数据增强,得到增强声纹,并将所述增强声纹加入所述声纹训练集;
14、构建fbank特征提取网络和mfcc特征提取网络,作为并行特征分类模型的前端输入网络;构建融合声纹网络,作为并行特征分类模型的后端输出网络;
15、利用所述声纹训练集训练得到所述并行特征分类模型。
16、进一步,所述对所述训练声纹进行数据增强,得到增强后的训练声纹,包括:
17、使用开源数据集对训练声纹进行混响生成带有人声和噪声的声纹;
18、对带有人声和噪声的声纹在时域进行随机掩码0-5帧,得到掩码后的声纹。
19、进一步,所述fbank声纹特征提取网络包括两层1*1卷积块和三层残差通道注意力模块;
20、所述mfcc声纹特征提取网络包括两层有1*1卷积块和二层残差通道注意力模块。
21、进一步,所述残差通道注意力模块的包括两层1*1卷积块、通道注意力模块、add模块。
22、进一步,所述将所述fbank特征和所述mfcc特征输入到预训练好的并行特征分类模型中进行并行处理,输出得到融合声纹特征,包括:
23、通过fbank特征提取网络提取所述fbank特征的声纹特征,得到fbank声纹特征;
24、通过mfcc声纹特征提取网络提取所述mfcc特征的声纹特征,得到mfcc声纹特征;
25、通过融合声纹网络将所述fbank声纹特征和mfcc声纹特征处理得到融合声纹特征。
26、进一步,所述通过融合声纹网络将所述fbank声纹特征和mfcc声纹特征处理得到融合声纹特征包括:
27、将所述fbank声纹特征和mfcc声纹特征叠加得到叠加声纹特征;对所述叠加声纹特征赋予不同权值,得到融合声纹特征。
28、进一步,所述对所述叠加声纹特征赋予不同权值,得到融合声纹特征包括:
29、计算所述叠加声纹特征的每帧特征维度的均值和标准差;
30、将所述叠加声纹特征及其每帧特征维度的均值和标准差进行堆叠串联得到所述叠加声纹特征的全局特征;
31、对所述叠加声纹特征的全局特征进行注意力加权计算得到其每帧均值和标准差,将所述叠加声纹特征的全局特征的每帧均值和标准差堆叠得到融合声纹特征。
32、本发明提供一种基于并行特征分类模型的声纹识别系统,包括:
33、提取模块,用于对待识别声纹进行重采样,对重采样后的待识别声纹进行特征提取,得到fbank特征和mfcc特征;
34、处理模块,用于将所述fbank特征和所述mfcc特征输入到预训练好的并行特征分类模型中进行并行处理,输出得到融合声纹特征;并将用户的原始注册声纹输入到所述并行特征分类模型中,输出得到比对声纹特征;
35、对比模块,用于计算融合声纹特征和比对声纹特征的余弦相似度,当所述余弦相似度大于第一阈值时,确定待识别声纹来自注册人员。
36、本发明的有益效果:
37、一是选取fbank特征和mfcc特征作为人声纹提取特征,fbank特征相关性较高,mfcc特征判别度较高,结合两种特征的优点,可以有效比对声纹中的有效特征,提高整体的鲁棒性,使得后续注册声纹比对更为准确。
38、二是引入声纹提取并行架构,将两个提取的音频特征并行处理,不需要通过人工进行融合,充分利用音频信息,并且其中采用了金字塔多尺度融合结合残差结构,注意力机制以及统计池化层,将mfcc与fbank特征在模型中,实现并行处理,并且最终在模型中实现特征的融合,并且得到声纹特征;这样做避免了人工处理特征和单特征输入的可能带来的影响,提高模型识别的性能,提高模型识别准确性。
39、三是通过se-block通过重新缩放信道来扩展帧层的时间上下文,以更好的对通道进行依赖进行建模,聚合和传播不同层次的se-res2blocks,将输出特征映射连接起来,并且采用了信道依赖框架注意的统计池模块,这也使得网络能够在信道的统计估计过程中关注不同的帧子集,注意全局的特征。
1.一种基于并行特征分类模型的声纹识别方法,其特征在于,包括:
2.根据权利要求1所述的基于并行特征分类模型的声纹识别方法,其特征在于,所述对待识别声纹进行重采样,对重采样后的待识别声纹进行特征提取,得到fbank特征和mfcc特征,包括:
3.根据权利要求1所述的基于并行特征分类模型的声纹识别方法,其特征在于,所述并行特征分类模型的预训练过程具体包括:
4.根据权利要求3所述的基于并行特征分类模型的声纹识别方法,其特征在于,所述对所述训练声纹进行数据增强,得到增强后的训练声纹,包括:
5.根据权利要求3所述的基于并行特征分类模型的声纹识别方法,其特征在于,所述fbank声纹特征提取网络包括两层1*1卷积块和三层残差通道注意力模块;
6.根据权利要求5所述的基于并行特征分类模型的声纹识别方法,其特征在于,所述残差通道注意力模块的包括两层1*1卷积块、通道注意力模块、add模块。
7.根据权利要求1或3所述的基于并行特征分类模型的声纹识别方法,其特征在于,所述将所述fbank特征和所述mfcc特征输入到预训练好的并行特征分类模型中进行并行处理,输出得到融合声纹特征,包括:
8.根据权利要求7所述的基于并行特征分类模型的声纹识别方法,其特征在于,所述通过融合声纹网络将所述fbank声纹特征和mfcc声纹特征处理得到融合声纹特征包括:
9.根据权利要求8所述的基于并行特征分类模型的声纹识别方法,其特征在于,所述对所述叠加声纹特征赋予不同权值,得到融合声纹特征包括:
10.一种基于并行特征分类模型的声纹识别系统,其特征在于,根据权利要求1-9任意一条所述的基于并行特征分类模型的声纹识别方法,包括: