一种声呐图像高精度快速目标检测方法及其模型搭建方法

专利检索2026-05-16 4

本发明属于水下计算机视觉，尤其涉及一种声呐图像高精度快速目标检测方法及其模型搭建方法。

背景技术：

1、声呐在水下成像过程中具有特别的优势。光学图像在水下受到水质、水面波动等因素的影响，容易产生反射、折射等现象，光线强度会随着深度的增加而迅速减弱，甚至完全消失，导致图像质量下降。与光学图像不同，声呐图像受到的影响较小，声呐图像不受光线条件的限制，不受水下物体表面特性的影响，在深海等光线极为有限的环境中也能够有效地进行目标检测。且声波在水中传播的能力比光波更强，可以穿透水中的浑浊、深度和其它干扰物，使声呐图像能够提供更清晰和更全面的水下信息，提供更为稳定和可靠的图像。这些优势使声学方法成为目前海洋探测的重要手段，声呐图像目标检测研究对于提高海洋安全、促进海洋资源开发利用、推动海洋科学研究以及维护海洋环境具有重要意义。

2、然而，传统声学探测模型假设简化了海洋环境，限制了其在真实环境中的适用性，特别是在浅海区域。海洋介质的复杂环境，例如有规律的声速变化形成的声道、随机的散射、海面和海底的不规则、漩涡、湍流、生物等，这些客观因素影响着海洋声学的研究和应用。同时，伴随着操作和环境条件的多变性、海洋混响、环境噪声和自噪声的存在、声呐成像原理的限制，声呐图像普遍存在低信噪比、亮度不均、纹理模糊、低对比度和严重失真等问题，大大影响了目标检测效果。

3、前视声呐操作灵活，更适合近距离目标检测与识别、前方避障，被广泛应用于军事和民用领域。设计一种高效准确的前视声呐图像目标检测于识别方法，可以有效支持海洋生态研究与开发、军事安全保障工作。

4、在基于深度学习的目标检测技术发展历史中，检测算法根据工作流程可大致分为两类：两阶段算法和一阶段算法。前者将检测任务分两步进行：先提取候选区域，再对候选区域进行分类。其优点是具有较高的检测精确度，代表网络模型有 r-cnn、fast r-cnn、faster r-cnn 等。后者不需要区域建议，一步到位获取目标的类别概率和位置坐标，因而较两阶段算法更有速度优势。代表网络模型有 yolo、ssd 等。

5、根据网络特征提取过程中是否依赖大量播撒的锚框，常见的检测网络模型又可以分为基于锚框和不基于锚框的网络。基于锚点和无锚点检测的本质区别在于如何定义正负训练样本，从而导致两者之间的性能差距。近年来，基于 cnn 发展的目标检测以基于锚点的检测为主导，对于双阶段和单阶段方法，它们都是先在图像上平铺大量预设锚点，然后对这些锚点的类别进行预测，并对这些锚点的坐标进行一次或数次细化后作为检测结果输出。

6、基于锚点的检测方法是对传统滑动窗口方法的改进，使其更易于生成区域建议。锚点可以被看做是手工制作的先验边界框，它们根据与真实框的重叠程度被分类为正负样本，并依据额外的偏移量回归来定位边界框位置网络的预测输出。在面向对象的目标检测算法中，基于锚点的方法往往表现较好。然而，锚点关联着许多需要使用先验知识手动确定的超参数，增加了计算量，虽然 yolov2 提出了使用聚类算法获取先验框信息，但这种方法不具备泛化性，且正负样本取决于先验框和真实框之间的 iou 值，超参数对检测器最终性能有很大影响。

技术实现思路

1、针对上述问题，本发明第一方面提供了一种声呐图像高精度快速目标检测模型的搭建方法，包括以下过程：

2、步骤1，获取大量声呐回波强度原始图像，所述原始图像由开源平台下载获取或声呐在水下直接获取；

3、步骤2，对步骤1中获取的原始图像进行预处理；基于声呐图像的特性对原始图像进行灰度处理，并对每张图片所含目标物生成对应的标签文件，描述目标物的坐标位置和类别；最后将数据集划分为训练集、验证集和测试集；

4、步骤3，基于yolov7网络结构，搭建一种新的yowe网络模型；所述yowe网络模型包括输入、主干网络cspdarknet和检测输出head，在head中引入cmb结构，所述cmb结构包含特征融合部分和检测部分，所述特征融合部分帮助模型从不同层级的特征中提取信息，利用高层次语义信息辅助目标检测，即使声呐图像底层特征收到噪声或模糊的影响，仍可正确识别声呐图像目标；所述检测部分是增加一层输出层，每个输出层负责检测不同尺度和特征的目标，帮助模型充分利用多尺度信息；

5、步骤4，使用步骤2中训练集和验证集对步骤3中所搭建的yowe网络模型进行训练，同时引入wise-iou作为损失函数；

6、步骤5，使用步骤2中的测试集对训练后的yowe网络模型进行测试，选取验证效果最好的模型作为最终模型。

7、优选的，所述步骤2中的预处理还包括以下过程：对使用声呐实地采集的声呐回波强度图，进行等间隔抽取，增大图像间的不相关性；同时进行反转、旋转和裁剪进行数据增强处理。

8、优选的，所述cmb结构具体为：

9、所述cmb结构包含特征融合部分和检测部分，所述特征融合部分包括bconv模块、upsample模块和catconv模块，用于使网络对特征做更有效的处理；所述bconv包含卷积层、批归一化层和激活层，所述卷积的卷积核尺寸都为1，所述激活层使用泄露整流线性激活函数，所述bconv模块先执行深度可分离卷积来减少通道数，再执行标准卷积增加通道数，所述bconv模块用于降低计算复杂度并提高模型性能，提高模型计算效率和参数利用率；所述upsample模块用于对特征图进行上采样，从而使用不同尺度特征图的融合或将低分辨率的特征图提升到更高分辨率的水平；所述catconv模块包括两条分支，第一条分支由一个卷积核为1×1、步长为1的bconv模块组成，第二条分支由一个卷积核为1×1、步长为1×1的bconv和四个卷积核为3×3、步长为1的bconv模块级联构成；所述catconv模块用于实现更多层的特征之间的关联；所述检测部分包括rep模块和conv模块，用于取得更准确的预测效果；所述rep模块在训练和部署的时候结构不同，训练时在3×3的卷积基础上添加1×1的卷积分支，同时如果输入和输出的通道以及图像尺寸一致，再添加一个bn分支，三个分支相加输出，在部署时使用3×3的主分支卷积输出；所述rep模块用于增强模型对输入图像的感知能力。

10、优选的，所述cmb结构的具体处理流程为：

11、s1，将网络原有的最后一次特征融合结果输入bconv模块；

12、s2，将s1的结果输入upsample进行上采样；

13、s3，将骨干网络中第一层e-elan的输入传递到bconv模块；

14、s4，将s3和s2的输出传递到catconv模块，对特征图进行融合；

15、s5，将s4融合后的特征输入bconv模块，再次进行通道数的减少和增加处理；

16、s6，将s5的输出分为两个分支，一个分支输入mpconv模块，引入额外的分支和操作，使特征提取更加多样化和灵活化；另一个分支输入rep模块，扩大模型的感受野；

17、s7，将mpconv模块的输出传递给后续特征处理网络，将rep模块的输出传递给conv模块，所述conv模块即卷积层；最后由conv模块输出一个最终检测结果分支。

18、优选的，所述bconv模块，作用是对通道减半，得到长宽减半的输出特征图，达到超级下采样的结果；所述bconv模块由卷积层、批归一化层bn和leakyrelu激活函数构成；所述卷积层采用1×1卷积核，步长也为1；所述bn层是对于每个神经元做归一化处理，是数据预处理得关键步骤；所述leakyrelu激活函数用于对网络做非线性计算，leakyrelu激活函数的计算方式为：

19、当时，

20、当时，

21、其中为自变量，为超参数，取值为0.01；所述leakyrelu激活函数的计算方式如下：

22、

23、其中，是一个小于1的常数，称为泄漏系数；leakyrelu通过在负值区域引入一个小的线性斜率来避免了零梯度问题。

24、优选的，所述引入wise-iou作为损失函数，替换掉原本的ciou损失函数，采用动态聚焦机制，利用“离群度”替代iou来评价锚框的质量，采用性能更加优越的梯度增益分配策略。

25、优选的，主干网络cspdarknet和检测输出head中使用了残差连接和金字塔结构进行特征提取；在网络的某些层之间添加跨层连接，将前一层的输出直接加到后一层的输入中，使得网络学习到残差信息，即前一层到后一层之间的差异，从而更加有效地传播梯度；在 yowe模型中，金字塔结构通过不同尺度的卷积层或池化层来实现，这些层次之间通过跨层连接或下采样操作进行交互，最终得到具有多尺度特征表示的输出；结合残差连接和金字塔结构，rep 模块在yowe模型中使得网络能够更好地传播梯度，加速训练过程。

26、本发明第二方面还提供了一种声呐图像高精度快速目标检测方法，包括以下过程：

27、通过声呐获取声呐回波强度图；

28、将获得的声呐回波强度图灰度处理后输入到如第一方面所述的搭建方法所搭建的目标检测模型中；

29、输出目标物的坐标位置和类别结果图。

30、本发明第三方面还提供了一种声呐图像高精度快速目标检测设备，所述设备包括至少一个处理器和至少一个存储器，所述处理器和存储器相耦合；所述存储器中存储有如第一方面所述的搭建方法所搭建的目标检测模型的计算机执行程序；所述处理器执行存储器中存储的计算机执行程序时，使处理器执行一种声呐图像高精度快速目标检测方法。

31、本发明第四方面还提供了一种计算机可读存储介质，其特征在于：所述计算机可读存储介质中存储有如第一方面所述的搭建方法所搭建的目标检测模型的计算机执行程序，所述计算机执行程序被处理器执行时，使处理器执行一种声呐图像高精度快速目标检测方法。

32、与现有技术相比，本发明具有如下有益效果：

33、本发明基于yolov7进行改进，提出yowe网络模型，引入cmb结构改进模型结构并引入wise-iou损失函数，通过改进网络结构，增加输出头，与网络的不同层级相连接，专门捕捉特定层次的特征，集成多个输出头的结果。一方面提升检测精度，另一方面可以得到更加鲁棒性和可靠的预测结果，降低模型的偏差和方差，提高模型泛化能力，最终提出一种基于深度学习的声呐图像高精度快速目标检测方法。

34、（1）本发明的cmb结构中，特征融合部分帮助模型从不同层级的特征中提取信息，利用高层次语义信息辅助目标检测，即使声呐图像底层特征收到噪声或模糊的影响，高层特征仍然可能包含有用的信息，从而达到正确识别受噪声影响严重、特征信息提取困难的声呐图像目标的效果。增加一个检测输出头使模型增加一层输出层，每个输出层负责检测不同尺度和特征的目标，帮助模型充分利用多尺度信息，达到准确识别声呐图像中尺度大小不一的目标的效果。

35、（2）本发明引入的wiou用于平衡不同大小目标对损失函数的影响，提高模型检测精度；结合cba结构，分别在一定程度上提升了网络性能，且共同应用时有进一步的性能增益。

36、（3）结合残差连接和金字塔结构，rep 模块在yowe模型中使得网络能够更好地传播梯度，加速训练过程，提高模型收敛速度；利用金字塔结构，使得网络能够同时捕获多个尺度的图像信息，提高了网络对不同尺度物体的感知能力，从而提高了检测精度和泛化能力。综上所述，yowe利用残差连接和金字塔结构的特性，提高了网络的特征提取能力和表达能力，从而改善了目标检测任务的性能。

技术特征：

1.一种声呐图像高精度快速目标检测模型的搭建方法，其特征在于，包括以下过程：

2.如权利要求1所述的一种声呐图像高精度快速目标检测模型的搭建方法，其特征在于，所述步骤2中的预处理还包括以下过程：对使用声呐实地采集的声呐回波强度图，进行等间隔抽取，增大图像间的不相关性；同时进行反转、旋转和裁剪进行数据增强处理。

3.如权利要求1所述的一种声呐图像高精度快速目标检测模型的搭建方法，其特征在于，所述cmb结构具体为：

4.如权利要求1所述的一种声呐图像高精度快速目标检测模型的搭建方法，其特征在于，所述cmb结构的具体处理流程为：

5.如权利要求3所述的一种声呐图像高精度快速目标检测模型的搭建方法，其特征在于：所述bconv模块，作用是对通道减半，得到长宽减半的输出特征图，达到超级下采样的结果；所述bconv模块由卷积层、批归一化层bn和leakyrelu激活函数构成；所述卷积层采用1×1卷积核，步长也为1；所述bn层是对于每个神经元做归一化处理，是数据预处理得关键步骤；所述leakyrelu激活函数用于对网络做非线性计算，leakyrelu激活函数的计算方式为：

6.如权利要求1所述的一种声呐图像高精度快速目标检测模型的搭建方法，其特征在于：所述引入wise-iou作为损失函数，替换掉原本的ciou损失函数，采用动态聚焦机制，利用“离群度”替代iou来评价锚框的质量，采用性能更加优越的梯度增益分配策略。

7.如权利要求1所述的一种声呐图像高精度快速目标检测模型的搭建方法，其特征在于：

8.一种声呐图像高精度快速目标检测方法，其特征在于，包括以下过程：

9.一种声呐图像高精度快速目标检测设备，其特征在于：所述设备包括至少一个处理器和至少一个存储器，所述处理器和存储器相耦合；所述存储器中存储有如权利要求1至7任意一项所述的搭建方法所搭建的目标检测模型的计算机执行程序；所述处理器执行存储器中存储的计算机执行程序时，使处理器执行一种声呐图像高精度快速目标检测方法。

10.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质中存储有如权利要求1至7任意一项所述的搭建方法所搭建的目标检测模型的计算机执行程序，所述计算机执行程序被处理器执行时，使处理器执行一种声呐图像高精度快速目标检测方法。

技术总结
本发明提供了一种声呐图像高精度快速目标检测方法及其模型搭建方法，属于水下计算机视觉技术领域。本发明基于YOLOv7进行改进，提出YOWE网络模型，引入CMB结构改进模型结构并引入Wise‑IoU损失函数，通过改进网络结构，增加输出头，与网络的不同层级相连接，专门捕捉特定层次的特征，集成多个输出头的结果。一方面提升检测精度，另一方面得到更加鲁棒性和可靠的预测结果，降低模型的偏差和方差，提高模型泛化能力。本发明引入的WIoU用于平衡不同大小目标对损失函数的影响，提高模型检测精度；结合CBA结构，分别在一定程度上提升了网络性能，且共同应用时有进一步的性能增益。

技术研发人员：付民,李宜楠,孙梦楠,俞智斌,郑冰
受保护的技术使用者：中国海洋大学三亚海洋研究院
技术研发日：
技术公布日：2024/5/29

转载请注明原文地址:https://win.8miu.com/read-1163279.html

专利

最新回复(0)