本技术涉及人工智能,具体涉及一种唤醒词识别方法、模型训练方法和电子设备。
背景技术:
1、随着语音识别技术的快速发展,很多电子设备安装有语音助手应用程序(application,app)。语音助手app能够与用户进行语音交互,包括但不限于接收并响应用户的语音指令、与用户进行智能对话和即时问答等。
2、语音助手app一般处于休眠状态,若需要进行语音交互,需要先将语音助手app唤醒,也即将语音助手app从休眠状态切换至工作状态。常见的唤醒语音助手app的方式有:触摸唤醒、电源键唤醒、语音唤醒等。其中,语音唤醒是指预先设置唤醒词,电子设备接收到用户通过语音输入的该唤醒词后,将语音助手app从休眠状态切换至工作状态。语音唤醒能够解放用户双手,大大提升人机交互的效率。
3、唤醒词的识别是语音唤醒中的一个重要步骤。然而,相关技术中的唤醒词识别方法存在鲁棒性差的问题。
技术实现思路
1、本技术提供了一种唤醒词识别方法、模型训练方法和电子设备,能够增强唤醒词识别的鲁棒性。
2、第一方面,本技术提供一种唤醒词识别方法,该方法由电子设备执行,该方法包括:采集到声音信号后,从声音信号中获取待识别语音信号;对待识别语音信号进行复制,得到语音复制信号;将待识别语音信号和语音复制信号拼接,得到输入信号;将输入信号作为目标扩散模型的输入,将预设唤醒词的文本特征作为目标扩散模型的约束条件,执行反向扩散过程,得到输出信号,输出信号中包括第一信号段和第二信号段,第一信号段用于存储待识别语音信号中满足约束条件的语音信号,第二信号段用于存储待识别语音信号中不满足约束条件的语音信号;根据第一信号段,确定待识别语音信号中是否包含预设唤醒词。
3、本技术第一方面提供的唤醒词识别方法,至少具有以下有益效果:
4、1)该方法基于扩散模型进行唤醒词识别,扩散模型作为高质量生成模型,生成的语音信号质量高、听感好。因而,通过目标扩散模型能够从带噪语音信号中准确地识别出唤醒词的语音信号,提高唤醒词识别的准确性。
5、2)该方法在识别唤醒词时,无需进行声源分离,不会存在声源分离不彻底、音频质量损伤等问题,因而通过目标扩散模型识别到的语音信号质量高、听感好。
6、3)目标扩散模型为整体的模型,而非分块训练、分块使用的模型,因而整体性能优,鲁棒性好。
7、4)目标扩散模型不涉及单独的语音增强处理模块,不受电子设备器件,例如麦克风数量、位置等的限制,能够适用于各种结构的器件采集的声音信号,因而该模型和该方法的通用性和鲁棒性好。
8、一种可能的实现方式中,输出信号为不含噪音的语音信号。
9、也就是说,目标扩散模型识别到的语音信号为干净的语音信号,质量高、听感好,提高用户唤醒体验。
10、一种可能的实现方式中,根据第一信号段,确定待识别语音信号中是否包含预设唤醒词,包括:若确定第一信号段中存在数据,则确定待识别语音信号中包含预设唤醒词;若确定第一信号段中不存在数据,则确定待识别语音信号中不包含预设唤醒词。
11、第一信号段用于存储待识别语音信号中满足约束条件的语音信号,也即,第一信号段用于存储内容为预设唤醒词的语音信号。那么,通过判断第一信号段是否存在数据,即可简单、快速、准确地确定待识别语音信号中是否包含预设唤醒词。
12、一种可能的实现方式中,该方法还包括:对输出信号进行拆分,得到第一信号段和第二信号段,第一信号段和第二信号段的长度相等,第一信号段位于输出信号的前半段;确定第一信号段中是否存在数据。
13、当然,在一些实施例中,第一信号段和第二信号段的长度也可以不相等,第一信号段也可以位于输出信号段的后半段,具体的可以取决于训练目标扩散模型时,输入模型的信号中的信号段长度和位置设置。
14、该实现方式中,第一信号段和第二信号段长度相等,且第一信号段位于输出信号的前半段的情况下,便于快速拆分第一信号段和第二信号段,从而快速根据第一信号段确定待识别语音信号中是否包含预设唤醒词。
15、一种可能的实现方式中,约束条件还包括目标人物的声纹特征;根据第一信号段,确定待识别语音信号中是否包含预设唤醒词,包括:若确定第一信号段中存在数据,则确定待识别语音信号中包含预设唤醒词,且待识别语音信号为目标人物发出的;若确定第一信号段中不存在数据,则确定待识别语音信号中不包含预设唤醒词,或者待识别语音信号不为目标人物发出的。
16、该实现方式中,约束条件除了预设唤醒词的文本特征外,还包括目标人物的声纹特征。通过这两个方面的约束条件,对目标扩散模型反向扩散过程的约束,使得到的输出信号中,将信号分类两类,一类为目标人物发出的,内容为唤醒词的目标语音信号,另一例为非目标人物发出的,或者内容不为唤醒词的非目标语音信号。也就是说,该实现方式不仅能够识别预设唤醒词,还能够识别语音信号是否为目标人物发出的,即进行声纹验证,如此,提高唤醒的安全性,进而提高用户体验。
17、一种可能的实现方式中,将预设唤醒词的文本特征作为目标扩散模型的约束条件,包括:将目标人物的声纹特征和预设唤醒词的文本特征进行特征融合,得到融合特征;将融合特征作为约束条件。
18、该实现方式中,对目标人物的声纹特征和预设唤醒词的文本特征进行特征融合,得到融合特征,这样不仅能够减少特征的数量和维度,降低模型计算复杂度,而且融合特征能够更全面地描述约束条件,能够提升模型的识别准确性和鲁棒性。
19、一种可能的实现方式中,从声音信号中获取待识别语音信号,包括:对声音信号进行语音活动检测,提取声音信号中的待识别语音信号。
20、可选的,可以基于注意力机制(attention mechanism),对目标人物的声纹特征和预设唤醒词的文本特征进行特征融合。
21、注意力机制的目的是根据输入序列的不同部分分配不同的权重,以突出重要的信息并提高模型的性能。该实现方式中,通过注意力机制可以向目标人物的声纹特征和预设唤醒词的文本特征分配不同的权重,以体现二者在唤醒词识别中不同的重要程度,提高目标扩散模型对目标人物发出的唤醒词(即本人唤醒词)识别的准确性。
22、一种可能的实现方式中,根据第一信号段,确定待识别语音信号中是否包含预设唤醒词之后,该方法还包括:若待识别语音信号中包含预设唤醒词,则唤醒预设应用程序。
23、一种可能的实现方式中,唤醒预设应用程序之后,该方法还包括:设置状态标志位的值为第一值,状态标志位的值为第一值表征预设应用程序处于工作状态。
24、一种可能的实现方式中,对待识别语音信号进行复制,得到语音复制信号之前,该方法还包括:在确定状态标志位的值为第二值的情况下,对待识别语音信号进行复制,得到语音复制信号。状态标志位的值为第二值表征预设应用程序处于休眠状态。
25、一种可能的实现方式中,采集到声音信号后,从声音信号中获取待识别语音信号之后,该方法还包括:在确定状态标志位的值为第一值的情况下,识别待识别语音信号中的语义信息,根据语音信息执行指令,和/或,根据语音信息输出应答语音。
26、第二方面,本技术提供一种模型训练方法,该方法由电子设备执行,该方法包括:获取样本语音信号,样本语音信号中包括第一样本语音信号和第二样本语音信号,第一样本语音信号为样本人物发出的内容为样本唤醒词的语音信号,第二样本语音信号不为样本人物发出的语音信号,和/或,第二样本语音信号的内容不为样本唤醒词;将样本语音信号作为初始扩散模型的输入,将样本唤醒词的文本特征作为初始扩散模型的约束条件,执行正向扩散过程,并调整初始扩散模型的参数,得到目标扩散模型。
27、基于该模型训练方法训练得到的目标扩散模型,输入可以为带噪语音信号,执行反向扩散后,输出得到输出信号。输出信号中包括第一信号段和第二信号段,第一信号段用于存储待识别语音信号中满足约束条件的语音信号,第二信号段用于存储待识别语音信号中不满足约束条件的语音信号。
28、本技术第二方面提供的模型训练方法至少具有以下有益效果:
29、1)对于扩散模型而言,正向扩散过程中用到的约束条件用于约束扩散的过程,控制模型学习能力的走向,使模型学习到的能力与约束条件高度相关。本模型训练方法中,将样本唤醒词的文本特征作为正向扩散过程中的约束条件,控制模型学习能力的走向,使模型学习到类似于分类的能力,将信号分为两类,一类为满足约束条件的目标语音信号,另一类为不满足约束条件的非目标语音信号。如此,该方法训练得到的目标扩散模型能够更准确地识别出唤醒词。
30、2)该模型训练过程无需使用样本噪声,不需要结合繁琐复杂的噪声场景训练模型,不仅简化了模型训练的过程,而且得到的目标扩散模型能够覆盖各种声源场景,具有很高的灵活性和鲁棒性。
31、3)该模型训练过程在不需要样本噪声的情况下,也无需进行声源分离,不会存在声源分离不彻底、音频质量损伤等问题,得到的目标扩散模型识别到的语音信号质量高、听感好。
32、4)上述模型训练过程是对初始扩散模型一个模型进行整体训练,不存在分块训练的问题,因而训练得到的目标扩散模型的整体性能优,鲁棒性好。
33、5)上述模型训练过程不涉及对语音增强模块的训练,不受电子设备器件,例如麦克风数量、位置等的限制,能够适用于各种结构的器件采集的声音信号,因而模型的通用性和鲁棒性好。
34、一种可能的实现方式中,约束条件还包括样本人物的声纹特征;将样本唤醒词的文本特征作为初始扩散模型的约束条件,包括:将样本人物的声纹特征和样本唤醒词的文本特征进行特征融合,得到样本融合特征;将样本融合特征作为约束条件。
35、该实现方式中,约束条件除了样本唤醒词的文本特征外,还包括样本人物的声纹特征。通过这两个方面的约束条件,对目标扩散模型正向扩散过程进行约束,使模型学习到将带噪语音信号分为两类,一类为满足约束条件(满足样本唤醒词的文本特征和样本人物的声纹特征)的目标语音信号,另一类为不满足约束条件的非目标语音信号。也就是说,该实现方式训练处的目标扩散模型,不仅能够识别预设唤醒词,还能够识别语音信号是否为目标人物发出的,即进行声纹验证,如此,提高唤醒的安全性,进而提高用户体验。
36、一种可能的实现方式中,第一样本语音信号和第二样本语音信号均为不含噪音的信号。
37、也就是说,第一样本语音信号的第二样本语音信号为干净的语音信号。这样,采用干净的样本语音信号作为目标域信号,模型学习到的能力是将带噪语音信号恢复至干净语音信号的能力。如此,训练得到的目标扩散模型进行唤醒词识别时,得到的语音信号质量高、听感好,识别更准确,提高用户唤醒体验。
38、一种可能的实现方式中,第一样本语音信号和第二样本语音信号的信号长度相等。
39、采用长度相等的第一样本语音信号和第二样本语音信号训练得到的目标扩散模型,在后续进行唤醒词识别时,输出的输出信号中包括第一信号段和第二信号段,第一信号段和第二信号段的长度相等。这样便于对输出信号进行拆分,便于根据拆分得到的信号段判断待识别语音信号中是否包含唤醒词,提高唤醒识别的效率。
40、一种可能的实现方式中,获取样本语音信号,包括:分别获取第一样本语音信号和第二样本语音信号;将第一样本语音信号第二样本语音信号拼接,得到样本语音信号。
41、可选的,拼接时,可以第一样本语音信号位于前半段,第二样本语音信号位于后半段,也可以第一样本语音信号位于后半段,第二样本语音信号位于前半段。
42、通过将第一样本语音信号和第二样本语音信号拼接,得到一段连续的样本语音信号,这样便于初始扩散模型向样本语音信号添加高斯噪声,即便于执行模型训练过程。
43、第三方面,本技术提供一种装置,该装置包含在电子设备中,该装置具有实现上述第一方面及上述第一方面的可能实现方式中电子设备行为的功能。功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块或单元。例如,接收模块或单元、处理模块或单元等。
44、第四方面,本技术提供一种电子设备,电子设备包括:处理器、存储器和接口;处理器、存储器和接口相互配合,使得电子设备执行第一方面的技术方案中任意一种方法。
45、第五方面,本技术提供一种芯片,包括处理器。处理器用于读取并执行存储器中存储的计算机程序,以执行第一方面及其任意可能的实现方式中的方法。
46、可选的,芯片还包括存储器,存储器与处理器通过电路或电线连接。
47、进一步可选的,芯片还包括通信接口。
48、第六方面,本技术提供一种计算机可读存储介质,计算机可读存储介质中存储了计算机程序,当计算机程序被处理器执行时,使得该处理器执行第一方面的技术方案中任意一种方法。
49、第七方面,本技术提供一种计算机程序产品,计算机程序产品包括:计算机程序代码,当计算机程序代码在电子设备上运行时,使得该电子设备执行第一方面的技术方案中任意一种方法。
1.一种唤醒词识别方法,所述方法由电子设备执行,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一信号段,确定所述待识别语音信号中是否包含所述预设唤醒词,包括:
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
4.根据权利要求1所述的方法,其特征在于,所述约束条件还包括目标人物的声纹特征;
5.根据权利要求4所述的方法,其特征在于,所述将预设唤醒词的文本特征作为所述目标扩散模型的约束条件,包括:
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述从所述声音信号中获取待识别语音信号,包括:
7.一种模型训练方法,所述方法由电子设备执行,其特征在于,所述方法包括:
8.根据权利要求7所述的方法,其特征在于,所述约束条件还包括所述样本人物的声纹特征;
9.根据权利要求7所述的方法,其特征在于,所述第一样本语音信号和所述第二样本语音信号均为不含噪音的信号。
10.根据权利要求7所述的方法,其特征在于,所述第一样本语音信号和所述第二样本语音信号的信号长度相等。
11.根据权利要求7至10中任一项所述的方法,其特征在于,所述获取样本语音信号,包括:
12.一种电子设备,其特征在于,所述电子设备包括:一个或多个处理器,以及存储器;
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括指令,当所述指令在电子设备上运行时,使得所述电子设备执行如权利要求1至11中任一项所述的方法。