本发明属于显著性目标检测,涉及化石图像显著性目标检测,具体涉及一种基于多级联合注意力机制的化石图像显著性目标检测的方法。
背景技术:
1、显著性目标检测是计算机视觉领域的重要研究方向之一,其主要目标是在图像中自动检测和定位最具吸引力的区域。显著性目标检测的应用广泛,如图像检索、物体识别、图像压缩等。
2、古生物化石是揭示地球上古代生物历史的珍贵遗迹。在古生物学领域,科学家通过对化石的研究和分析,重建了过去生态系统的生物多样性、生态作用和进化过程。化石为生命的进化提供了关键证据,对理解地球历史和生物进化的模式和过程具有重要意义。野外考古和发掘是发现和收集化石的主要手段。这需要考古学家、古生物学家和地质学家之间的合作,他们在地质构造中寻找潜在的化石遗址,进行现场挖掘,并根据挖掘环境记录和保存化石。近年来,随着计算机视觉和机器学习的发展,人工智能在化石研究中发挥着越来越重要的作用。
3、目前,相关领域的学者已经研究并提出了许多图像显著性目标检测算法,主要可以分为传统的算法、机器学习方法和基于深度学习的方法。传统的算法在图像领域有着广泛的应用。lim等人应用分水岭算法在显微镜下定位化石主体,有效地识别了化石主体。然而,由于分水岭算法依赖于灰度或梯度,它对噪声和凸起很敏感。当处理具有高噪声水平或大量突起的图像时,可能会导致最终分割结果中的过分割和欠分割等问题,需要细致的图像预处理。在深度学习出现之前,基于传统机器学习的显著性目标检测方法已经得到了广泛的应用。这些方法主要包括区域生长法、基于图割的方法和基于频域分析的方法。其中,区域生长法是最早的显著性目标检测算法之一,它将像素划分为多个区域,并将相似区域合并为一个区域,以获得显著区域。然而,这种方法容易受到噪声的影响,并且需要大量的手动参数调整。基于图割的方法借鉴了图论中的最小割理论,将显著性目标检测问题转化为图割问题,但仅适用于处理较小的图像。基于频域分析的方法将图像转换为频域信号,并使用滤波器和其他方法从频域分析图像特征,但这种方法对噪声等复杂干扰的鲁棒性较差。
4、近年来,深度学习受到了学术界和工业界的广泛关注,出现了许多基于深度神经网络的显著性目标检测方法。这些方法不需要手动提取特征。相反,它们通过编码器自动提取图像显著性特征,以检测图像中的主要目标。目前使用的方法主要包括卷积神经网络、递归神经网络和注意力机制。其中,卷积神经网络(cnn)是应用最广泛的网络结构。在这些方法中,刘等人提出的poolnet方法采用了一种基于池化的结构,在保持高精度的同时降低了计算成本,但这种方法使用了大量的下采样操作,导致图像特征细节的损失,并且不能使用上采样操作来补偿这种损失。qin x等人提出的basnet方法使用残差网络预测粗略估计图,设计残差校正模块来细化粗略估计图。并引入混合损失,使模型能够关注像素级、批处理级和图像级的显著信息。然而,它的泛化性能较差,并且对于边缘模糊的小数据集,它的性能较差。fu等人提出的方法使用并行空间注意力机制(pam)和通道注意力机制(cam)提取不同尺度的信息,提高了目标检测性能。然而,它忽略了由多层注意力机制引起的信息丢失或重复的问题。jun wei等人提出的方法引入了跨特征模块(cfm),设计了级联反馈解码器和像素位置感知损失,集成了不同层次的特征,将高分辨率和高语义的特征峰值反馈给先前的特征,帮助网络更加关注细节区域,但它忽略了空间和通道中的语义信息。周等人提出的dpanet方法引入了深度图和通道注意机制,以防止不可靠的深度信息造成的污染,从跨通道的角度捕捉显著特征。然而,这种方法引入了更多的分支,增加了网络的体积,并忽略了空间信息。侯刚等人提出的方法通过在poolnet框架中添加萎缩卷积池金字塔和残差校正模块来提高显著性目标检测精度。然而,这种方法仍然无法解决poolnet中大量采样操作导致的细节丢失问题。
5、尽管现有的深度学习方法在数据驱动的条件下发挥了重要作用,但在数据有限或数据质量较低的情况下,例如在古生物学领域,它们的效果较差。现有显著性目标检测方法聚焦于提取多尺度图像特征,级联浅层和深层图像特征或获取空间和通道语义信息以及利用边缘修正最终显著性目标检测结果。但是忽略了小样本古生物化石图像中局部细节特征和纹理相似特征的区分,导致泛化性以及精度较低,一种能够精确检测古生物化石图像显著性目标的方法有待研究。
技术实现思路
1、针对现有技术存在的不足,本发明的目的在于提供一种基于多级联合注意力机制的化石图像显著性目标检测的方法,显著提升化石图像主体特征细节的完整度,扩充多维度特征信息,能够有效地提取化石图像中的细节和纹理信息。
2、为了实现上述目的,本发明采用以下技术方案予以实现:
3、一种基于多级联合注意力机制的化石图像显著性目标检测的方法,包括以下步骤:
4、步骤1:收集不同物种的古生物化石图像数据并结合相关研究人员先验知识对化石图像进行标签,生成数据集;
5、步骤2:将步骤1收集的图像数据进行预处理,适配模型输入需求,并划分为训练集、验证集和测试集;
6、步骤3:将efficientnet重构为四个编码器作为显著性目标检测的编码器,将经步骤2预处理的数据集的rgb图像经过四个编码器后,将后三个编码器的输出进入多层次感受野膨胀模块进行感受野扩张,获取更多维度细节的图特征,将经过多层次感受野扩展模块后的输出进行融合,生成一个包含局部和全局细节的特征;
7、步骤4:采用多级次联合注意力模块将步骤3生成的特征分别进行空间与通道及通道与空间的注意力聚焦;
8、步骤5:将步骤4获取到的注意力聚焦后的特征进行拼接,并经过自注意力融合模块融合多层次注意力的特征,生成初始显著性掩码图;
9、步骤6:使用特征修正模块利用生成的初始显著性掩码图指导编码器输出特征指导生成更具细节的显著性掩码图,最终将得到的三个显著性掩码图进行平均融合得到最终的显著性目标检测结果,达到显著性目标检测的目的;
10、步骤7:定义显著性目标检测质量的指标,来评估模型在测试集上的性能,以及与其他显著性目标检测方法进行定性定量比较。
11、本发明还具有以下技术特征:
12、优选的,步骤2所述的数据预处理方法包括90°随机旋转、水平翻转、垂直翻转、明暗对比度增强、随机灰度系数和部分滤波处理。
13、优选的,步骤3中所述的将经过多层次感受野扩展模块后的输出进行融合,具体融合公式如下:
14、
15、
16、e″2=f(up(e″3))
17、式中,f表示卷积运算,cat表示信道特征级联,表示特征矩阵乘法,up表示上采样操作,e2表示第二个编码器输出的特征,e3表示第三个编码器输出的特征,e4表示第四个编码器输出的特征,其中e′2表示e2、e3和e4的等距聚合,e″3表示e3和e4的尺度聚合,e″2表示e″3的卷积上采样;
18、最后通过聚合,得到一个特征聚合表示x,公式如下:
19、
20、式中,r表示实数域,h和w分别表示图特征的长和宽。
21、步骤6中所述的特征修正模块指导编码器输出特征指导生成更具细节的显著性掩码图的公式表示为:
22、mapi+1=mrfe(sigmoid(mapi)*e2-i+σ(-1*sigmoid(mapi)+1)*e2-i)
23、式中,mrfe表示多层次感受野膨胀模块,mapi表示第i个显著性掩码图,e2-i表示第2-i个编码器输出的特征,σ表示过滤掉大于阈值的特征值的过滤器,根据经验,将阈值设置为0.93。
24、进一步的,步骤6中所述的特征修正模块中,损失函数使用tracer方法中的损失函数,表示为:
25、
26、式中,bce表示二进制交叉熵;分别表示重构二进制交叉熵、iou和l1的损失函数,y和分别表示标签和预测值。
27、更进一步的,为使与突出物体边缘相邻的像素更显著,将像素强度应用于每个像素,重构二进制交叉熵、iou和l1损失函数;
28、像素强度公式如下:
29、
30、通过使用多个核大小k并排除边缘之外的权重来聚合目标像素aij周围的相邻像素(h,w),yij表示当前像素点的标签值,λ是使用多核聚合时惩罚的权重。
31、优选的,将所述的惩罚项λ设置为0.5,并且核大小k∈{3,15,31}。
32、优选的,将像素强度ω用于自适应bce损失,公式如下:
33、
34、式中,yc与分别表示对应于二进制类c的标签和预测概率。
35、将像素强度ω应用于自适应iou损失,公式如下:
36、
37、使用像素强度ω进行差分自适应l1损失,公式如下:
38、
39、优选的,步骤7中所述的定义的显著性目标检测质量的指标包括:平均绝对误差、综合考虑查准率和查全率的指标f-measure以及通过对象感知和区域感知结构相似性计算得到的s-measure。
40、本发明具有如下的增益效果:
41、本发明利用重构后的efficientnet网络骨干的强大特征提取能力,能够有效地提取化石图像中的细节和纹理信息;进一步通过对化石图像进行多尺度膨胀卷积操作提取多尺度局部细节信息,能够显著提升化石图像主体特征细节的完整度,同时利用空间与通道注意力之间相互的依赖性,扩充多维度特征信息提供更重要的显著性特征;同时利用前面编码器的特征与显著性掩码图结合指导后续更精细的显著性掩码图生成;本发明基于多层次联合注意力机制进行化石图像显著性目标检测的方法,不仅架构完整,而且在化石图像显著性目标检测方面表现出了优异的性能。
42、细节和附图说明
43、图1为本发明的网络整体框架图;
44、图2为通道注意力结构示意图;
45、图3为多层次感受野扩展模块结构示意图;
46、图4为多级联合注意力模块的空间注意力模块结构示意图;
47、图5为多级联合注意力模块的通道注意力模块结构示意图;
48、图6为多级联合注意力模块的自注意力融合模块结构示意图;
49、图7为数据集部分样例图;
50、图8为化石图像显著性目标检测定性对比结果展示图。
1.一种基于多级联合注意力机制的化石图像显著性目标检测的方法,其特征在于,包括以下步骤:
2.如权利要求1所述的基于多级联合注意力机制的化石图像显著性目标检测的方法,其特征在于,步骤2所述的数据预处理方法包括90°随机旋转、水平翻转、垂直翻转、明暗对比度增强、随机灰度系数和部分滤波处理。
3.如权利要求1所述的基于多级联合注意力机制的化石图像显著性目标检测的方法,其特征在于,步骤3中所述的将经过多层次感受野扩展模块后的输出进行融合,具体融合公式如下:
4.如权利要求1所述的基于多级联合注意力机制的化石图像显著性目标检测的方法,其特征在于,步骤6中所述的特征修正模块指导编码器输出特征指导生成更具细节的显著性掩码图的公式表示为:
5.如权利要求4所述的基于多级联合注意力机制的化石图像显著性目标检测的方法,其特征在于,步骤6中所述的特征修正模块中,损失函数使用tracer方法中的损失函数,表示为:
6.如权利要求5所述的基于多级联合注意力机制的化石图像显著性目标检测的方法,其特征在于,为使与突出物体边缘相邻的像素更显著,将像素强度应用于每个像素,重构二进制交叉熵、iou和l1损失函数;
7.如权利要求6所述的基于多级联合注意力机制的化石图像显著性目标检测的方法,其特征在于,将所述的惩罚项λ设置为0.5,并且核大小k∈{3,15,31}。
8.如权利要求6所述的基于多级联合注意力机制的化石图像显著性目标检测的方法,其特征在于,将像素强度ω用于自适应bce损失,公式如下:
9.如权利要求1所述的基于多级联合注意力机制的化石图像显著性目标检测的方法,其特征在于,步骤7中所述的定义的显著性目标检测质量的指标包括:平均绝对误差、综合考虑查准率和查全率的指标f-measure以及通过对象感知和区域感知结构相似性计算得到的s-measure。
