基于迭代式选择-修正网络的交互式图像分割方法与流程

专利检索2022-05-10 18

基于迭代式选择
‑
修正网络的交互式图像分割方法
技术领域
1.本发明涉及交互式图像分割技术领域，特别是一种基于迭代式选择
‑
修正网络的交互式图像分割方法。

背景技术：

2.交互式图像分割是指在用户提供的先验知识下，基于一定的相似性准则将用户感兴趣的目标从复杂的图像背景环境中分离出来，它是图像分析、模式识别和计算机视觉等领域中的一个关键问题，分割质量的好坏将直接影响后续相关应用。
3.近年来，随着深度学习模型在计算机视觉众多任务中都取得了优异的成绩，基于深度学习的交互分割方法越来越受到了国内外学者的广泛关注，其突破了传统交互式方法只能提取底层局部特征的局限性，利用卷积神经网络的特征提取能力获得了突出了分割效果，并成为主流的交互式图像分割方法。迭代式交互式分割方法基于深度学习方法提出，提出了一种全新的训练过程，其模拟了真正的交互形式，在训练过程中点击点以迭代形式生成，并动态扩展输入数据，从而获得了更加优异的分割效果。
4.然而现有迭代式训练方法虽然模拟真正了交互形式，但是并没有感知不同交互点类型的不同交互意图，难以在有限的交互点数量条件下获取满意的分割结果；此外，迭代式训练过程中所有迭代轮次之间完全独立，使得模型没有能力感知时域上的先后顺序，难以维护迭代过程中的时空一致性。这些缺陷严重影响了该类方法的准确性和鲁棒性，限制了其实用性。

技术实现要素：

5.本发明的目的在于提供一种基于迭代式选择
‑
修正网络的交互式图像分割方法，并结合时序卷积长短期记忆单元(convolutional lstm，clstm)，提高交互式分割的预测精度，减少用户所需的点击交互数，完成对图像的交互式分割。
6.实现本发明目的的技术解决方案为：一种基于迭代式选择
‑
修正网络的交互式图像分割方法，包括以下步骤：
7.步骤1、根据用户的分割意图，在训练过程中迭代式生成交互点；
8.步骤2、挖掘交互点序列中不同的交互意图，将交互点序列分为选择、修正两部分；
9.步骤3、将不同类型的交互点分别转换成为不同影响半径的距离特征图；
10.步骤4、依据当前交互点类型，采取不同的损失函数；
11.步骤5、对迭代过程建模，使用时序模型传递交互意图信息和分割线索，最终完成图像分割。
12.进一步地，步骤1中，在训练过程中迭代式生成交互点，具体为：
13.以模型当前所得到的分割结果和目标区域的真实标签作对比，每次都选择错误分割的最大区域，定位该最大区域的形心作为新生成交互点的分割坐标，并循环往复此过程，称为迭代式训练；交互点分为前景交互点和背景交互点两种，分别对应假阴性和假阳性两
种类型的错误区域。
14.进一步地，步骤2中，将交互点序列分为选择、修正两部分，具体为：
15.交互点序列中的第一个交互点为选择类型，随后的交互点为修正类型。
16.进一步地，步骤3中，将不同类型的交互点分别转换成为不同影响半径的距离特征图，距离特征图转换方式为：
17.距离特征图为与图像尺寸相同的三通道灰度图，其中第一通道对应选择交互点，第二和第三通道对应修正交互点；每个像素点在每个通道上取值为0
‑
255，值越小代表该像素点受到交互点的影响越大，越大表示该像素点受到交互点的影响越小；在同一通道的特征图中，距离交互点越近的像素点受到的影响更大，也即值越小，反之亦然；选择交互点蕴含用户全局选择意图，在特征图上具有更大的影响半径；修正交互点蕴含用户局部修正意图，在特征图上具有更小的影响半径。
18.进一步地，步骤4中，依据当前交互点类型，采取不同的损失函数，具体为：
19.在训练过程中，定义损失函数l为：
20.l＝αl
c
(1α)l
nfl
21.其中α为权重参数，在选择阶段和修正阶段的权重不同；l
nfl
为全局损失函数；
22.l
c
定义为修正损失函数，公式如下：
[0023][0024]
其中g
w
为当前点击点所对应的最大错误区域；p为像素点，x
p
为p像素点的预测值，y
p
为p像素点的标签值，g
w
代表上一轮迭代过程中所获得的最大错误区域；
[0025]
在选择网络阶段，将α设定为0；在修正网络阶段，将α设置为0.5。
[0026]
进一步地，步骤5中，对迭代过程建模，使用时序模型传递交互意图信息和分割线索，最终完成图像分割，具体如下：
[0027]
在编码
‑
解码基础网络结构中，在编码器和解码器之间加入卷积长短期记忆单元clstm，用以在迭代过程中感知、挖掘和传递隐藏信息，公式如下：
[0028]
f
t
＝σ(w
sf
*s
t
w
hf
*h
t
‑1 b
f
)
[0029]
i
t
＝σ(w
si
*s
t
w
hi
*h
t
‑1 b
i
)
[0030]
c
t
＝f
t
⊙
c
t
‑1 i
t
⊙
tanh(w
sc
*s
t
w
hc
*h
t
‑1 b
c
)
[0031]
o
t
＝σ(w
so
*s
t
w
ho
*h
t
‑1 b
o
)
[0032]
h
t
＝o
t
⊙
tanh(c
t
)
[0033]
其中t、t
‑
1分别表示当前迭代轮次和上一迭代轮次；σ表示sigmoid函数，*表示卷积操作，
⊙
表示元素乘法，c表示记忆细胞；i
t
、f
t
、o
t
分别表示输入门控单元、遗忘门控单元、输出门控单元；s、h分别表示编码器输出以及clstm模块从上一次迭代中传递而来的隐藏状态。
[0034]
本发明与现有技术相比，其显著优点在于：(1)使用选择修正网络，理解迭代式过程中的交互意图，对于选择点突出其全局选择意图，对于修正点突出其局部修正意图，并在不同阶段使用不同损失函数，从而提高了算法对于交互信息的感知能力，能够获得更好的分割结果；(2)在迭代过程中，针对传统方法无法感知时域上的先后顺序等问题，引入时序模型，通过clstm模块，在迭代过程中维护时空一致性，从而获得更优的分割结果。
[0035]
下面结合附图对本发明作进一步详细描述。
附图说明
[0036]
图1是本发明基于迭代式选择
‑
修正网络的交互式图像分割方法的流程图。
[0037]
图2是本发明基于迭代式选择
‑
修正网络的交互式图像分割方法的系统结构图。
[0038]
图3是选择
‑
修正网路对于选择类型和修正类型的交互点转换为距离特征图的处理流程图。
[0039]
图4是本发明中时序模型clstm在深度模型中应用的网络结构图。
[0040]
图5是本发明模型分割结果图。
具体实施方式
[0041]
本发明提出一种基于迭代式选择
‑
修正网络的交互式图像分割方法，该方法对现有基于深度学习的迭代式训练方法进行改进，在训练过程中引入选择
‑
修正网络，将训练过程拆分为选择和修正两个阶段，并引入卷积长短期记忆(convolutional lstm，clstm)单元以串联迭代过程。此方法突破现有深度学习方法的局限性，充分挖掘不同类型交互点所隐含的交互意图，并将迭代输入交互点序列进行时序建模，维护了迭代过程中的时空一致性，在有限的用户交互输入前提下，取得了优异的分割结果。
[0042]
结合图1～图2，本发明的基于迭代式选择
‑
修正网络的交互式图像分割方法包括以下步骤：
[0043]
步骤1、根据用户的分割意图，在训练过程中迭代式生成交互点；
[0044]
步骤2、挖掘交互点序列中不同的交互意图，将交互点序列分为选择、修正两部分；
[0045]
步骤3、将不同类型的交互点分别转换成为不同影响半径的距离特征图；
[0046]
步骤4、依据当前交互点类型，采取不同的损失函数；
[0047]
步骤5、对迭代过程建模，使用时序模型传递交互意图信息和分割线索，最终完成图像分割。
[0048]
进一步地，步骤1中，在训练过程中迭代式生成交互点，具体为：
[0049]
以模型当前所得到的分割结果和目标区域的真实标签作对比，每次都选择错误分割的最大区域，定位该最大区域的形心作为新生成交互点的分割坐标，并循环往复此过程，称为迭代式训练；交互点分为前景交互点和背景交互点两种，分别对应假阴性和假阳性两种类型的错误区域。
[0050]
进一步地，步骤2中，将交互点序列分为选择、修正两部分，具体为：
[0051]
交互点序列中的第一个交互点为选择类型，随后的交互点为修正类型。
[0052]
进一步地，步骤3中，将不同类型的交互点分别转换成为不同影响半径的距离特征图，距离特征图转换方式为：
[0053]
距离特征图为与图像尺寸相同的三通道灰度图，其中第一通道对应选择交互点，第二和第三通道对应修正交互点；每个像素点在每个通道上取值为0
‑
255，值越小代表该像素点受到交互点的影响越大，越大表示该像素点受到交互点的影响越小；在同一通道的特征图中，距离交互点越近的像素点受到的影响更大，也即值越小，反之亦然；选择交互点蕴含用户全局选择意图，在特征图上具有更大的影响半径；修正交互点蕴含用户局部修正意
图，在特征图上具有更小的影响半径。
[0054]
进一步地，步骤4中，依据当前交互点类型，采取不同的损失函数，具体为：
[0055]
在训练过程中，定义损失函数l为：
[0056]
l＝αl
c
(1
‑
α)l
nfl
[0057]
其中α为权重参数，在选择阶段和修正阶段的权重不同；l
nfl
为全局损失函数；
[0058]
l
c
定义为修正损失函数，公式如下：
[0059][0060]
其中g
w
为当前点击点所对应的最大错误区域；p为像素点，x
p
为p像素点的预测值，y
p
为p像素点的标签值，g
w
代表上一轮迭代过程中所获得的最大错误区域；
[0061]
在选择网络阶段，将α设定为0；在修正网络阶段，将α设置为0.5。
[0062]
进一步地，步骤5中，对迭代过程建模，使用时序模型传递交互意图信息和分割线索，最终完成图像分割，具体如下：
[0063]
在编码
‑
解码基础网络结构中，在编码器和解码器之间加入卷积长短期记忆单元clstm，用以在迭代过程中感知、挖掘和传递隐藏信息，公式如下：
[0064]
f
t
＝σ(w
sf
*s
t
w
hf
*h
t
‑1 b
f
)
[0065]
i
t
＝σ(w
si
*s
t
w
hi
*h
t
‑1 b
i
)
[0066]
c
t
＝f
t
⊙
c
t
‑1 i
t
⊙
tanh(w
sc
*s
t
w
hc
*h
t
‑1 b
c
)
[0067]
o
t
＝σ(w
so
*s
t
w
ho
*h
t
‑1 b
o
)
[0068]
h
t
＝o
t
⊙
tanh(c
t
)
[0069]
其中t、t
‑
1分别表示当前迭代轮次和上一迭代轮次；σ表示sigmoid函数，*表示卷积操作，
⊙
表示元素乘法，c表示记忆细胞；i
t
、f
t
、o
t
分别表示输入门控单元、遗忘门控单元、输出门控单元；s、h分别表示编码器输出以及clstm模块从上一次迭代中传递而来的隐藏状态。
[0070]
clstm通过引入隐藏状态和记忆细胞，将迭代式训练过程使用时序模型建模，维护迭代过程中的时空一致性，同时使用门控单元控制不同种类信息的流动，从而能够弥补了传统循环神经网络结构无法有效捕获长时段信息的劣势。
[0071]
下面结合实施例对本发明做进一步详细的说明。
[0072]
实施例
[0073]
本实施例以rgb三维图像作为输入，在训练阶段使用迭代式训练方法模拟交互，测试阶段接受用户输入的交互点信息，包括前景点和背景点，最终生成前景
‑
背景分割结果，形式为与rgb图像同样尺寸的二维向量，像素值为1代表前景，像素值为0代表背景。
[0074]
(1)论文《semantic contours from inverse detectors》提供的sbd数据集是一个图像分割数据集，其中训练集包含8498张图像，验证集包含2820张图像。此发明使用sbd数据集训练集作为训练数据集，对于输入图像统一变换到320*480尺寸，并进行标准化和归一化。在训练过程中，使用迭代式训练策略生成交互点，即根据前一次迭代的分割结果对比真实标签，取最大错误区域形心作为当前新添加的交互点。
[0075]
(2)序列中的第一个点击点(必然为前景点击点)包含用户的全局选择信息，而后续的点击点更加突出用户对于当前错误区域的修正，因此第一个交互点为选择类型，而随
后的交互点为修正类型。本发明提出选择
‑
修正网络，将迭代式训练过程分为选择和修正两个阶段。
[0076]
(3)将交互点转换为易于深度模型理解的距离特征图。由于输入的点击点只包含交互位置坐标信息，而为了让深度模型易于理解交互位置信息，需要将交互信息转换为距离特征图。距离特征图在形式上为单通道的灰度图，像素值的范围为[0，255]。其中值越小代表该像素点位置越靠近交互点，值越大代表该像素点位置越远离交互点。本发明所述的选择
‑
修正网络，挖掘不同类型交互点所隐含的不同信息。类型为选择的交互点，也即交互点序列的第一个交互点，其选择目标必然是感兴趣目标的中心，通常情况下具有更大的全局影响范围；类型为修正的交互点，其交互位置是在前一次迭代所生成的分割结果上做出的最优修正，因此通常情况下具有更小的局部影响范围。选择
‑
修正网络将不同类型的交互点转换为影响半径不同的特征图，如图3所示。最终深度模型接受的输入为rgb图像选择特征图前景修正特征图背景修正特征图，共6通道数据。
[0077]
(4)在训练过程中，我们定义损失函数为：
[0078]
l＝αl
c
(1
‑
α)l
nfl
[0079]
其中α为权重参数，其在选择阶段和修正阶段的权重不同，代表当前模型更加侧重与全局选择还是局部修正。l
nfl
为normalized focal loss，是一种平衡正负样本和加快收敛速度的全局损失函数。l
c
定义为修正损失函数，其公式如下：
[0080][0081]
其中g
w
为当前点击点所对应的最大错误区域。在选择网络阶段，我们将α设定为0；在修正网络阶段，将其设置为0.5。
[0082]
(5)在编码
‑
解码基础网络结构中，在编码器和解码器之间加入卷积长短期记忆单元(convolutional lstm，clstm)，用以在迭代过程中感知，挖掘和传递隐藏信息。工作原理如下：
[0083]
f
t
＝σ(w
sf
*s
t
w
hf
*h
t
‑1 b
f
)
[0084]
i
t
＝σ(w
si
*s
t
w
hi
*h
t
‑1 b
i
)
[0085]
c
t
＝f
t
⊙
c
t
‑1 i
t
⊙
tanh(w
sc
*s
t
w
hc
*h
t
‑1 b
c
)
[0086]
o
t
＝σ(w
so
*s
t
w
ho
*h
t
‑1 b
o
)
[0087]
h
t
＝o
t
⊙
tanh(c
t
)
[0088]
其中t，t
‑
1分别表示当前迭代轮次和上一迭代轮次，σ表示sigmoid函数，*表示卷积操作，
⊙
表示元素乘法，c表示记忆细胞，i
t
、f
t
、o
t
分别表示输入门控单元、遗忘门控单元、输出门控单元，而s和h分别表示编码器输出，以及clstm模块从上一次迭代中传递而来的隐藏信息。clstm结构如图4所示，其被嵌入在编码器
‑
解码器之间，用以捕获和传递时序信息。为了避免梯度消失问题并加快模型收敛速度，本发明设计使用残差结构连接编码器输出和clstm的隐藏信息。
[0089]
(6)最终实验结果如图5所示。图5展示出本发明完整的迭代交互流程，随着交互点的增加，模型能够以更快的速度，也即更少的交互代价，得到更优的分割结果。图5中第三、四、六列展现了选择
‑
修正网络的选择能力较为突出，仅仅通过一个交互点，就能够满足大部分分割精度需求(iou≥0.85)，这是因为选择
‑
修正网络对于选择型交互点，更加侧重其
全局选择意图；图5中第一、二、五列展现了选择
‑
交互网络的修正能力，由于选择
‑
修正网络对于修正类型交互点更加侧重其局部修正意图，并且模型基于clstm结构进行迭代式训练，使得网络能够更快从有限的交互信息中获得满意的分割结果。
[0090]
上述选择
‑
修正网络设计能够使得在迭代式训练过程中，模型能够充分挖掘交互点所隐含的实际用户意图，从而以更少的代价得到更好的分割结果；时序模型使得每次迭代过程不再相互割裂，使用clstm模块进行连接，从而使得用户交互意图和分割线索在迭代过程中传递，维护了分割过程的时空一致性。本发明在多个公共数据集上的指标都优于现有的方法，实现了交互式分割的低代价高精度分割，对于图像处理中抠图、数据集标注等方面具有重要的实际意义。

转载请注明原文地址:https://win.8miu.com/read-150133.html

专利

最新回复(0)