本发明属于水声信号处理,尤其涉及一种基于集成学习和样本合成的水声信号识别方法。
背景技术:
1、随着人类对海洋的探索活动日益活跃,海洋环境感知已经成为热门的研究方向。由于海水对电磁信号有强烈的衰减,因此无法采用电磁信号在水下进行长距离信息传递,严重阻碍了人类在海洋中的活动。幸运的是,声波作为一种机械波在海水中有较好的传输能力,因而成为当前水下信息传递、信息感知的主要方式。
2、在海水环境中,不同的目标产生不同特征的声波信号。对水声目标、杂波进行分类在渔业生产、海洋信息产业、科学调查研究以及国防军事中有着重要作用。然而,海洋由于波浪、潮汐、洋流等因素的作用,时刻存在大量的背景噪声,给水声信号的识别带来很大的困难。水声信号的准确识别是一件非常具有挑战性的工作,已成为海洋环境感知亟需解决的重要问题。水声信号识别包括数据采集、特征提取、分类识别等阶段。由于环境复杂,并且某些目标非常稀少,因此水声信号的采集十分困难,所得到的样本库也通常存在类别不平衡的问题,即某些类别的样本很多,而某些稀有类别的样本又非常少。另一方面,水声信号背景噪声大,导致信号特征的提取非常困难,传统手工特征提取方法存在先验的认知偏差,有可能遗漏了某些区别性的特征,导致识别准确率偏低。
技术实现思路
1、本发明的目的在于,针对现有问题,提出一种基于boost的集成学习作为基本的识别框架,逐次训练许多个体学习器来提高信号的识别准确率;有效处理识别率低的类别,并采用参数可调的信号合成方法增加此类样本的数量,基于多声音信号特征作为个体学习器的输入以提高信息的丰富性和多样性的水声信号识别方法。
2、为实现上述目的,本发明采用如下技术方案。
3、1.一种基于集成学习和样本合成的水声信号识别方法,包括如下步骤:
4、步骤1:采集水声信号样本数据,制作初始数据集d;其中,数据集d包含c个类别的水声信号;
5、步骤2:采集水声背景样本数据,制作背景噪声数据集z;其中,水声背景样本中不含有目标声音信号;
6、步骤3:迭代训练t个弱分类器;具体包括:初始化操作,构建第1个弱分类器所需的数据集d1=d;在此基础上依次训练第2到第t个弱分类器以及相应的训练集d2至dt;其中,第t个弱分类器的训练过程如3.1至3.4:
7、3.1:构建随机初始化的神经网络nt,其中神经网络采用卷积神经网络,神经网络nt的参数采用随机设置;
8、3.2:从数据集dt中随机抽取样本对神经网络nt进行训练;
9、3.2.1:从数据集dt中随机抽取样本x,并计算出x的梅尔谱m;
10、3.2.2:将m输入给神经网络nt,用反向传播算法调整nt的参数值;
11、3.2.3:基于步骤2.2.1-2.2.2进行重复训练的得到神经网络nt,即为第t个弱分类器ft;
12、3.3:用弱分类器ft对数据集dt中的全部样本进行一次运算,并计算ft在数据集dt上的总误差et,再利用et计算ft在最终的强分类器总的权重at;
13、et的计算公式如下:
14、其中,p()表示求期望,i()为指示函数,xi表示数据集dt中第i个样本,yi表示第i个样本对应的类别标签;
15、at的计算公式如下:
16、步骤3.4:通过合成的方法添加需要识别的样本,生成新数据集dt+1;具体而言:
17、3.4.1:针对数据集dt中的一个样本x,用分类器ft对其进行推理预测运算,ft的神经网络最后一层将输出一个概率分布g,g代表了样本被判断为各类别的概率;
18、如果样本x被正确分类,则样本x无需合成新的样本;
19、如果样本x没有被正确分类,则需要利用x合成新的样本;其中合成的样本数量n的计算公式为:
20、其中,用1-max(g)评价样本的难以识别的程度;
21、采用双门限端点检测算法[2]检测出样本x中的有效片段s,将有效片段s从样本x中裁剪出来,从背景噪声库z中随机抽取n个背景噪声,然后将有效片段s叠加到背景噪声上,形成n个新的样本;
22、3.4.2:针对数据集dt中的每一个样本,均执行步骤2.4.1的操作;
23、3.4.3:将步骤2.4.2中合成的所有新样本添加到数据集dt中,生成新的数据集dt+1;dt+1将用于下一个弱分类器的训练;
24、步骤4:将弱分类器加权组合为强分类器q;加权组合的算法如下:其中,at为步骤3.3计算所得的第t个弱分类器的权重,ft为训练好的第t个弱分类器。
25、其有益效果在于:
26、采用集成学习的方法训练了多个用于水声信号分类的弱分类器,并通过加权方式将多个弱分类器集成,从而得到一个功能更加强大的分类器。尤其是在设计权重时考虑了各个弱分类器的识别误差(误差越小的弱分类器所占权重越大),进一步提高了集成后分类器的识别能力。
27、在弱分类器的训练过程中,采用样本重复合成方法,缓解了水声样本数据不足的问题,尤其是样本合成过程中可以根据不同样本的识别困难程度来迭代地合成不同数量的新样本(即识别成功的样本不再合成新样本,而识别越困难的样本则合成的新样本越多),提高了样本合成的针对性和有效性。
1.一种基于集成学习和样本合成的水声信号识别方法,其特征在于,包括如下步骤: