基于多通道小波分解共同降噪的深度学习声纹识别方法与流程

专利检索2022-05-11 44

1.本发明涉及声纹识别技术，尤其涉及基于多通道小波分解共同降噪的深度学习声纹识别方法。

背景技术：

2.声纹识别技术在安保、金融等方面有着大量的应用场景。例如：身份确认，手机支付等。在环境安静的情况下，声纹识别准确性已经十分的高。但是在现实场景中，环境复杂，噪声来源多样，并且会伴随着多人同时说话的多目标情况，当直接处理这些采集到的声音信号时，噪声会极大程度上影响声纹识别的准确性导致识别错误。因此，研究如何在采集到的非平稳信号中通过深度神经网络识别出目标声源，提高识别的正确率有着重要的价值。
3.常用的声纹识别模型有hmm，gmm-ubm等模型，随着对神经网络的深入研究，一些神经网络模型也被用于声纹识别当中，例如rnn，lstm的网络结构。但是这些神经网路的训练时间长，在复杂环境下声纹识别率会有所降低。
4.鉴于此，亟需一种能在复杂环境下提高识别准确率的声纹识别方法。

技术实现要素：

5.为了克服现有技术的技术问题，本发明提供一种基于多通道小波分解共同降噪的深度学习声纹识别方法。
6.本发明的基于多通道小波分解共同降噪的深度学习声纹识别方法，包括以下步骤：a.利用螺旋形麦克风阵列进行多个通道的信号采集；b.对采集到的多个通道的信号进行空间滤波，得到空间滤波后的信号；c.对空间滤波后的信号进行预处理；d.对预处理后的每帧信号进行傅立叶变换；将实际频率转换到梅尔频率；确定信号幅值超过一预先设置的阈值的极大值；确定所述极大值所对应的频率；取作为相邻分段的边界，其中1《n《n-1，将信号频率范围等分为n个区间；并再从所述梅尔频率转换回所述实际频率；e.对步骤d处理后的信号按照所述n个区间进行小波变换，得到n个模态；f.对所述n个模态中的每个模态采用硬处理方式进行降噪处理，将每个模态与步骤c的预处理后的信号做互相关运算，选取互相关值超过一设定阈值所对应的模态；g.对步骤f所选取的模态进行对数功率谱计算和倒谱系数计算，并根据倒谱系数得到语音信息矩阵；h. 将得到的语音信息矩阵输入基于注意力机制模型的卷积神经网络，用于识别声纹所属对象。
7.在一个实施例中，步骤b包括：对所采集到的多个通道的信号进行空间特征分析以确认人声的来波方向，并根据所述来波方向调整所述多通道螺旋阵列的方向以实现语音增
强；对所有所述多个通道的信号根据信号到达所述多通道螺旋阵列中不同阵列单元的时延值进行相位同步，并按照权重比对所有所述多个通道的信号求和，得到所述空间滤波后的信号。
8.在一个实施例中，所述来波方向的获得方式如下：对采集到的所述多个通道的信号进行广义互相关运算，获得信号到达不同阵列单元的所述时延值；根据所述多通道螺旋阵列中的阵列单元之间的间距r、声速c以及所述时延值按照下式求解所述来波方向：，其中表示所述来波方向。
9.在一个实施例中，步骤c的预处理包括以下步骤：预加重、分帧、加窗、端点检测。
10.在一个实施例中，所述预加重的步骤为：采用高通滤波方式按照下式进行预加重处理，得到高通滤波后的信号；，其中，为空间滤波后的离散信号，为所述高通滤波后的信号，是采样点。
11.在一个实施例中，所述分帧的步骤为：将所述高通滤波后的信号按照一固定长度n进行分帧。
12.在一个实施例中，所述加窗的步骤为：对分帧后的信号加上窗函数，得到加窗后的信号，其中，，其中，n为语音序列长度，经验值。
13.在一个实施例中，所述端点检测的步骤采用双门限法，即采用短时能和过零率确定双门限法的两个门限，当所述加窗后的信号同时超过两个门限时认为信号处于语音阶段。
14.在一个实施例中，步骤e中的小波变换为经验小波变换。
15.在一个实施例中，步骤e中：定义所述经验小波变换的尺度函数和小波函数在频域中如下：
其中，函数的表达式为，x在和中替换为各自函数的自变量；其中，为一系数，且满足，；其中，为频率，n表示n个模态中的第n个；设近似系数为，细节系数为，其中，为预处理后的信号的频谱函数，为的复共扼，分别表示的傅里叶变换，为傅立叶反变换；所述n个模态表示为：。
16.在一个实施例中，在步骤f中：所述硬处理方式为：针对每一个模态，选出该模态中幅值超过一通用阈值的采样点，计为，其中，n表示第n个模态，表示一个模态中的第个采样点；所述通用阈值设定为，其中为时域内分帧后的信号长度，为步骤e中得到的n个模态中的第n个模态，计算方式如下：。
17.在一个实施例中，在步骤g中：所述对数功率谱计算如下：
，根据所述对数功率谱，第n个模态的第d个倒谱系数计算如下：其中，d表示每个模态中的倒谱系数总个数；根据所述倒谱系数，所述语音信息矩阵表示为：在一个实施例中，在步骤h中：所述注意力机制模型表示为：其中s代表所述多个通道中各通道的权重，和分别表示relu激活函数和sigmoid激活函数，和为所述注意力机制模型中的全连接层系数，表示矩阵的行和列个数，i和j分别表示第i行和第j列，u 为所述注意力机制模型的直接输入。
18.本发明的基于多通道小波分解共同降噪的深度学习声纹识别方法在梅尔频率内划分经验小波的频率区间，经过经验小波变换得到了有效的语音特征，将其输入到神经网络实现了声纹识别。本发明应用于环境嘈杂、噪声丰富的场景中的声纹识别方法，采用多角度（空间，信号）降噪方式得到了神经网络的输入特征矩阵。同时，改进了卷积神经网络，引入了注意力机制，得到每个通道的权重比提高信号识别的准确。
附图说明
19.本发明的以上发明内容以及下面的具体实施方式在结合附图阅读时会得到更好的理解。需要说明的是，附图仅作为所请求保护的发明的示例。在附图中，相同的附图标记代表相同或类似的元素。
20.图1示出根据本发明一实施例的基于多通道小波分解共同降噪的深度学习声纹识别方法的示意图；图2示出根据本发明一实施例的基于多通道小波分解共同降噪的深度学习声纹识别方法的流程图；图3示出根据本发明一实施例的神经网络构成图。
具体实施方式
21.以下在具体实施方式中详细叙述本发明的详细特征以及优点，其内容足以使任何本领域技术人员了解本发明的技术内容并据以实施，且根据本说明书所揭露的说明书、权利要求及附图，本领域技术人员可轻易地理解本发明相关的目的及优点。
22.图1示出根据本发明一实施例的基于多通道小波分解共同降噪的深度学习声纹识
别方法的示意图。
23.该方法主要分为空间滤波部分，小波降噪部分，声纹识别三大部分。
24.图2示出根据本发明一实施例的基于多通道小波分解共同降噪的深度学习声纹识别方法的流程图。
25.结合图1及图2，本方法包括，但不限于，以下步骤。
26.步骤101：利用螺旋形麦克风阵列进行多个通道的信号采集；步骤102：对采集到的多个通道的信号进行空间滤波，得到空间滤波后的信号。
27.在一个实施例中，空间滤波包括：对所采集到的多个通道的信号进行空间特征分析以确认人声的来波方向，并根据所述来波方向调整所述多通道螺旋阵列的方向以实现语音增强；将所有通道信号根据信号到达不同阵列单元的时延值进行相位同步，并按照权重比对所有通道信号求和（因为存在来波方向，所以每个阵列单元接收到信号的权重比值不同），得到空间滤波后的信号。
28.其中，来波方向的获得方式如下：对采集到的多通道时域信号进行广义互相关运算，获得信号到达不同阵列单元的时延值。根据各阵列单元之间的间距r、声速c和时延值得到来波方向（即信号到达角）：步骤103：对空间滤波后的信号进行预处理，得到初级信号。所述预处理包括对信号归一化、预加重、分帧、加窗（例如，窗函数选取汉明窗）、端点检测。
29.在一个实施例中，预加重处理包括：采用高通滤波进行预加重处理，公式如下所示。
30.其中，为空间滤波后的离散信号，为高通滤波后的信号，其中是采样点。
31.在一个实施例中，分帧处理包括：将高通滤波后的信号按照一固定长度n进行分帧，例如，每一个分帧的长度为40 ms。
32.在一个实施例中，加窗处理包括：对高通滤波后的信号加上窗函数，得到加窗后的信号，其中，，其中，n为语音序列长度，是采样点，经验值。
33.在一个实施例中，端点检测处理采用双门限法：短时能和过零率确定双门限法的两个门限，当信号同时超过两个门限阈值时候认为信号处于语音阶段。
34.步骤104：对预处理后的每帧信号f(t)进行傅立叶变换，将实际频率转换到梅尔（mel）频率；确定信号幅值超过一预先设置的阈值的极大值；确定所述极大值所对应的频率；取作为相邻区间的边界，其中1《n《n-1，将信号频率范围等分为n个区间；并再从所述梅尔频率转换回所述实际频率；
本发明的基于多通道小波分解共同降噪的深度学习声纹识别方法将信号转化到mel频率进行划分频率区间符合人耳的听觉特征，按照极大值进行划分保证了每个划分区域都存在有效信号，增加提取的信号特征的准确性。
35.步骤105：对步骤104处理后的信号按照所述划分区间进行经验小波变换，得到n个模态。其中，每个区间对应一个模态；经验小波的尺度函数和小波函数在频域的定义如下：其中，函数的表达式为，x在和中替换为各自函数的自变量；其中，为一系数，且满足，；其中，为频率，n表示第n个模态。
36.设近似系数为，细节系数为，其中，为预处理后的信号的频谱函数，为的复共扼，分别表示的傅里叶变换，为傅立叶反变换；各个模态可以表示为：，其中n表示第n个模态。
37.步骤106：对各模态采用硬处理方式进行降噪处理，将每个模态和预处理后的信号做互相关运算，选取互相关值超过一设定阈值所对应的模态。
38.所述硬处理方式为：针对每一个模态，选出该模态中的采样点幅值超过一通用阈值的采样点，计为，其中，n表示第n个模态，表示一个模态中的第个采样点；所述通用阈值设定为，其中为时域内分帧后的信
号长度，为步骤105中得到的n个模态中的第n个模态，表示绝对值，median（）表示取中位数。
39.计算方式如下：其中，表示取绝对值。
40.步骤107：对步骤106所选取的模态进行对数功率谱计算，并根据该对数功率谱计算第n个模态的第d个倒谱系数，并根据倒谱系数得到特征向量，即，语音信息矩阵。
41.其中，对数功率谱计算如下：，根据所述对数功率谱，第n个模态的第d个倒谱系数计算如下：其中，d表示每个模态中的倒谱系数总个数；根据所述倒谱系数，所述语音信息矩阵（即特征向量）表示为：。
42.步骤108：将得到的语音信息矩阵输入基于注意力机制模型的卷积神经网络，用于识别声纹所属对象。
43.该神经网络构成如图3所示，将语音信息矩阵输入卷积层和池化层，提取低维度的特征同时减小空间维度，在层与层之间进行批规范化（bn层）提高模型泛化能力。其后通过残差通道注意力模块，得到每个通道的权重比。最后进入全连接层识别被测人的身份。
44.注意力机制模型可以表示为：其中s代表各通道的权重，和分别表示relu激活函数和sigmoid激活函数，和为残差通道注意力模型中的全连接层系数，表示矩阵的行和列个数，i和j分别表示第i行和第j列，u 为注意力机制模型的直接输入。
45.区别于现有技术的对信号提取传统mfcc的特征作为深度神经网络的输入，本发明提供的基于多通道小波分解共同降噪的深度学习声纹识别技术分别从多通道空间滤波增强有效信号，利用经验小波变换，解决了小波变换中选取不同基小波会对不同信号的分解的差异性。通过对不同模态进行求倒谱系数减少了局部噪声对全局特征系数的影响，大大提高了倒谱特征在噪声中的鲁棒性。
46.综上所述，本发明实例中的应用于环境嘈杂，噪声丰富的场景中的声纹识别方法，采用多角度（空间，信号）降噪方式得到了神经网络的输入特征矩阵。同时改进了卷积神经
网络，引入了注意力机制，得到每个通道的权重比提高信号识别的准确。
47.除非权利要求中明确说明，本技术所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用，并非用于限定本技术流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本技术实施例实质和范围的修正和等价组合。例如，虽然以上所描述的系统组件可以通过硬件设备实现，但是也可以只通过软件的解决方案得以实现，如在现有的服务器或移动设备上安装所描述的系统。
48.同理，应当注意的是，为了简化本技术披露的表述，从而帮助对一个或多个发明实施例的理解，前文对本技术实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法并不意味着本技术对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。
49.本技术使用了特定词语来描述本技术的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本技术至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外，本技术的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
50.这里采用的术语和表述方式只是用于描述，本发明并不应局限于这些术语和表述。使用这些术语和表述并不意味着排除任何示意和描述(或其中部分)的等效特征，应认识到可能存在的各种修改也应包含在权利要求范围内。其他修改、变化和替换也可能存在。相应的，权利要求应视为覆盖所有这些等效物。
51.同样，需要指出的是，虽然本发明已参照当前的具体实施例来描述，但是本技术领域中的普通技术人员应当认识到，以上的实施例仅是用来说明本发明，在没有脱离本发明精神的情况下还可做出各种等效的变化或替换，因此，只要在本发明的实质精神范围内对上述实施例的变化、变型都将落在本技术的权利要求书的范围内。

转载请注明原文地址:https://win.8miu.com/read-950036.html

专利

最新回复(0)