基于语音信号处理的智能辅助引导系统的制作方法

专利检索2022-05-10 30

1.本发明涉及一种情感识别的智能辅助引导系统。

背景技术：

2.情感识别技术是机器学习领域应用比较广泛的一项技术，它是指通过对文字、表情、语音等分析从而识别出群众的情感状况。但单独的情感识别技术无法准确识别复杂的情感，而机器学习能改善该技术的性能。
3.因此针对上述问题，研究利用语音信号处理和机器学习等人工智能技术，提供智能辅助引导系统。

技术实现要素：

4.为解决现有技术中存在的技术问题，本发明提供一种基于语音信号处理的智能辅助引导系统。
5.本发明提供一种智能辅助引导系统，所述智能辅助引导系统的特征在于：智能识别情感，该系统可以分为四个部分：语音输入、情感特征判别、融合情感分类输出和自适应加权融合
6.所述语音输入，对于群众，通过麦克风将群众所述内容进行记录；
7.所述情感特征判别，情感特征判别分为文字情感特征和语音情感特征。通过语音信号处理和机器学习等人工智能技术，对相应情感特征做出判别。
8.所述融合情感分类输出，通过机器学习训练可以得到多个基分类器，利用融合算法对基分类器进行训练，得到融和情感分类模型，输出文字和情感状况；
9.所述自适应加权融合，每个情感分类器都有相应的权数，各个分类器输出的结果以自适应的方式寻找其对应的权数，最后通过加权平均，可以得到最优的情感分类结果。
10.所述语音输入，将群众所述内容分别存储转换为文字内容和音频内容。
11.所述文字内容，通过提取语音中的相关情感特征词汇，通过语言和解码和搜索，与声学模型和语言模型结合，得到文字内容；
12.所述音频内容，通过对语音进行预加重、分帧和快速傅里叶变换等信号处理方法，可以得到音频信号；
13.所述文字情感特征，对文字内容进行预处理，过滤其中与情感无关的词汇，标记相关情感词汇，组成文本特征矩阵。
14.所述语音情感特征，将音频信号通过滤波器组进行平滑化和消除谐波，通过离散傅里叶变化得到音频情感特征。
15.所述情感特征判别，将文字和音频中的情感特征，输入情感分类模型，输出基于文字或语音的情感特征输出。
16.所述情感分类模型，提取数据库中的情感特征，利用机器学习算法进行训练，选择合适的损失函数(交叉熵等)，根据损失函数可以求取梯度，从而更新权值，往复训练可得到
最终的模型。
17.所述融合情感分类模型，将数据源划分为多个样本，分别采用机器学习算法(knn、svm、决策树等)进行训练得到多个情感子融合器，利用投票法更改多个子情感融合器输出结果的权值，进行多伦迭代，最终输出情感分类结果；
18.综上，本发明提供了一种基于语音信号处理的智能辅助引导系统。
附图说明
19.为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需的附图做简单介绍。
20.图1为本发明实施例的总体流程；
21.图2是示出图1所示语音转换为文字流程；
22.图3是示出图1所示语音转换为时频信号流程；
23.图4是示出图1所示的情感分类器训练过程流程；
24.图5是示出图1所示的融合情感输出流程；
具体实施方案
25.为了使本领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚的描述，所述的实施例仅是本发明一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明的保护范围。
26.本发明首先通过麦克风接收群众现场的语音内容，分别存储转换为文字和音频内容。利用融合算法训练出情感分类器，输出文字和音频情感分类结果，再经过自适应加权融合得出最后的情感状况，并给出情感威胁等级。下面将进一步说明各个部分的详细情况。
27.智能辅助引导系统，如图1所示，该发明包括三个部分，语音输入100、情感分类器训练 200和融合情感分类输出300。
28.1.0
29.所述语音输入部分100，将群众的语音内容基于麦克风作为语音输入设备，转换为文字和音频形式存储，作为情感分类器的输入数据。
30.语音转换为文字数据，一种实施流程，如图2所示。通过现场群众，麦克风接收其语音输入，通过现有已成熟的语音转文字技术10001将语音输入转换为文字数据。
31.语音转文字技术是基于声学模型10002和语言模型10003进行的文字转换，所述声学模型和语言模型通过提取国际上流行情感数据库中的情感词汇进行训练所得。声学模型根据声学特性计算每一个特征向量在声学特征上的得分，语言模型根据语言学相关的理论，计算该声音信号对应可能词组序列的概率。最后通过已有的字典，对词组序列进行解码，得到最后可能的文本表示。
32.语音转换为音频数据，一种实施流程，如图3所示。主要分为三个步骤，即预加重、分帧、加窗和快速傅里叶变换、三角带通滤波器。
33.首先是预加重10201，即将语音信号通过一个高通滤波器，提升高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱。同时，也是
为了消除发生过程中声带和嘴唇的效应，来补偿语音信号受到发音系统所抑制的高频部分，也为了突出高频的共振峰；接着是分帧和加窗10202。把多个采样点集合成一个观测单位，称为帧。将每一帧乘以汉明窗，以增加帧左端和右端的连续性。使用快速傅里叶变化，把时域信号转换为频域信号，时域上的变换通常很难看出信号的特性，所以通常将它转换为频域上的能量分布来观察。最后通过滤波器(可选用三角带通滤波器)10203，对频谱进行平滑化，并消除谐波的作用，突显原先语音的共振峰，得到时频特征图片。
34.基于图2和图3处理流程，分别得到文字数据和时频图数据，为情感分类器分类产生了两类数据源。
35.2.0
36.所述情感分类器训练200，一种实施流程如图4所示。由数据处理部分20001得到标签和特征，再结合机器学习算法得到模型2000204。将文字数据和时频特征图作为输入，输出情感分类结果。
37.所述数据处理部分20001，主要分为3个阶段，预处理、数据划分和情感标注。首先对音视频资料进行预处理操作，然后分为文字数据和音频数据，对数据进行纠正缺失值、拼写错误、数值正常化等处理。最后将文字数据和音频数据划分为片段，文字数据依据语句划分，音频数据依据帧来划分。对所划分数据进行标注，作为机器学习算法训练模型的标签。再对片段进行情感词汇的标注，作为机器学习算法训练模型的特征。可选标注类型有：生气、高兴、悲伤、中性。
38.所述机器学习算法训练模型流程20002，主要分为3个阶段，选择算法2000201、选择损失函数2000202和优化参数2000203。
39.根据该技术所涉足领域，本发明选用分类算法来训练模型。由于现有群众上访记录以及情感特征个数较少，因此选用knn、决策树、朴素贝叶斯和svm算法来训练模型。
40.将数据源中的情感特征作为模型的输入，输出情感分类结果，与数据源中的标签可能会有一定程度差别，称为损失。需要调整算法的权重与偏差找到损失最小的模型。
41.损失的大小用损失函数来刻画，由于本发明采用分类算法，在迭代训练模型的过程中，分类错误需要对样本权重进行更新，而交叉熵损失可以使梯度与绝对误差成正比，也就是分类越正确，越不需要更新权重，与分类算法的目的符合。所以损失函数选择交叉熵。
42.为了尽快找到理想的参数，降低损失，优化参数采用梯度下降法。梯度下降法指损失曲线上任取一点，计算其梯度，并沿着负梯度方向前进一步，找到下一个点。不断重复该过程，找到斜率为0的点，就是最小损失值。
43.由此可以优化算法的权值与偏差，得到一个较理想的模型。
44.3.0
45.所述融合情感分类输出300，一种实施流程，如图5所示。对于输出的基于文字和音频情感分类结果，采用最大投票方法，得到最终的情感分类结果。对比情感数据库，给出情感威胁等级。
46.所述情感数据库，采用国际上具有流行的情感数据库。比如，柏林数据库、susas数据库和iemocap数据库等。
47.所述最大投票方法，由基分类器先对数据进行判断得出自己的分类结果，对自己所预测的类投一票，最后得票最多的类就是融合学习算法最终的预测结果。
48.以上实例用以说明而非限制本发明的技术方案。不脱离本发明精神和范围的任何修改和替换，均应涵盖在本发明的权利要求范围中。

转载请注明原文地址:https://win.8miu.com/read-150154.html

专利

最新回复(0)