基于形状感知卷积的rgb
‑
d图像语义分割方法及系统
技术领域
1.本公开涉及图像语义分割技术领域,尤其涉及一种基于形状感知卷积的 rgb
‑
d图像语义分割方法及系统。
背景技术:
2.本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在 先技术。
3.随着深度传感器(如微软kinect)的广泛使用,rgb
‑
d数据的可用性促进 了rgb
‑
d语义分割任务的发展。由于卷积神经网络(cnn)的蓬勃发展,现有方 法大多采用cnn来解决这个问题。在这之中,卷积层被认为是cnn的核心构件, 因此是rgb
‑
d语义分割模型的关键元素。
4.然而,发明人发现,rgb信息和深度信息在本质上是不同的,即,rgb值表 示投影图像空间中的光学外观属性,而深度信息则同时包含物体在三维空间中 的物理位置和局部几何形状。因此,常用来处理rgb信息的卷积层并不是处理 深度数据的最佳方法。例如,对于同样的椅子即使放在距离观测点不同距离的 物理位置,因为它们有相同的形状,对应部位也应具有相同的特征,我们称其 为形状不变性。在网络模型的学习过程中,我们希望能够学习到形状不变性。 但是,当应用普通的卷积层在这些对应的输入时,由于它们绝对的深度值不同, 产生的特征是不同的,因此无法实现形状不变性。
技术实现要素:
5.本公开为了解决上述问题,提供了一种基于形状感知卷积的rgb
‑
d图像语 义分割方法及系统,所述方案基于提出的形状感知卷积层对rgb
‑
d图像进行处 理,通过将深度特征分解为形状分量和基分量,并引入两个独立可学习的权重 来分别处理这两个分量,使语义分割网络能够在一定程度上更加关注形状信息, 进而有效提高rgb
‑
d图像语义分割的精度。
6.根据本公开实施例的第一个方面,提供了一种基于形状感知卷积的rgb
‑
d 图像语义分割方法,包括:
7.获取待语义分割的rgb图像和深度图像;
8.将rgb图像及深度图像逐通道拼接,将拼接后的图像输入预先训练的语义 分割模型中,输出语义分割结果;
9.其中,所述语义分割模型包括若干形状感知卷积层,其中,所述形状感知 卷积层包括自学习权重的基础内核和形状内核;所述形状感知卷积层将输入的 图像块分解为基础分量和形状分量,并分别通过所述基础内核和形状内核进行 处理,最后将经过处理的分量通过元素相加的方式组合起来,获得形状感知图 像块。
10.进一步的,所述形状感知卷积层将输入的图像块分解为基础分量和形状分 量,其中,所述基础分量由图像块的平均值构成,所述形状分量由图像块的平 均值与绝对值的残
差构成。
11.进一步的,所述获得形状感知图像块后,利用普通卷积核对所述形状感知 图像块进行卷积。
12.进一步的,所述基础内核采用基础乘法,具体如下:
[0013][0014]
其中,每个元素的计算方式如下:
[0015][0016]
其中,p
b
为基础分量,w
b
为权重基础内核,c
in
为所在卷积层的输入通道数。 进一步的,所述形状内核采用形状乘法,具体如下:
[0017]
p
s
=w
s
*p
s
[0018]
其中,每个元素的计算方式如下:
[0019][0020]
其中,p
s
为形状分量,w
s
为权重形状内核,(k
h
,k
w
)为所在卷积层的窗口 大小。
[0021]
根据本公开实施例的第二个方面,提供了一种基于形状感知卷积的rgb
‑
d 图像语义分割系统,包括:
[0022]
图像获取单元,其用于获取待语义分割的rgb图像和深度图像;
[0023]
语义分割单元,其用于将rgb图像及深度图像逐通道拼接,将拼接后的图 像输入预先训练的语义分割模型中,输出语义分割结果;
[0024]
其中,所述语义分割模型包括若干形状感知卷积层,其中,所述形状感知 卷积层包括自学习权重的基础内核和形状内核,所述形状感知卷积层将输入的 图像块分解为基础分量和形状分量,并分别通过所述基础内核和形状内核进行 处理,最后将经过处理的分量通过元素相加的方式组合起来,获得形状感知图 像块。
[0025]
根据本公开实施例的第三个方面,提供了一种电子设备,包括存储器、处 理器及存储在存储器上运行的计算机程序,所述处理器执行所述程序时实现所 述的一种基于形状感知卷积的rgb
‑
d图像语义分割方法。
[0026]
根据本公开实施例的第四个方面,提供了一种非暂态计算机可读存储介质, 其上存储有计算机程序,该程序被处理器执行时实现所述的一种基于形状感知 卷积的rgb
‑
d图像语义分割方法。
[0027]
与现有技术相比,本公开的有益效果是:
[0028]
(1)本公开所述方案提供了一种基于形状感知卷积的rgb
‑
d图像语义分割 方法,基于提出的形状感知卷积层(shapeconv)来处理rgb
‑
d图像,将深度特 征首先分解为形状分量和基分量,并引入两个独立可学习的权重与分别处理这 两个分量,并将卷积应用于重新加权组合的两个分量上,使语义分割网络能够 在一定程度上更加关注形状信息,进而有效提高rgb
‑
d图像语义分割的精度。
[0029]
(2)所述shapeconv可以很容易地替换现有语义分割任务网络中的普通卷 积层,而集成到大多数cnn中;此外,由于shapeconv中新添加的学习权重 在测试阶段为常数,将其融合到普通卷积中,不增加任何额外的开销。因此使 用了shapeconv的语义分割网络的性能可以得到提升的同时,并不会在测试阶 段增加任何计算和内存开销,提高了分割效
率。
[0030]
本公开附加方面的优点将在下面的描述中部分给出,部分将从下面的描述 中变得明显,或通过本公开的实践了解到。
附图说明
[0031]
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公 开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
[0032]
图1为本公开实施例一中所述的rgb
‑
d图像的形状分量重要性的可视化展 示图;
[0033]
图2为本公开实施例一中所述的基于形状感知卷积的rgb
‑
d图像语义分割 网络及基线网络结构示意图;
[0034]
图3为本公开实施例一中所述的本公开所述分割方法及基线方法在nyudv2 数据集的可视化结果展示图。
具体实施方式
[0035]
下面结合附图与实施例对本公开做进一步说明。
[0036]
应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。 除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的 普通技术人员通常理解的相同含义。
[0037]
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图 限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确 指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说 明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器 件、组件和/或它们的组合。
[0038]
在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
[0039]
实施例一:
[0040]
本实施例的目的是提供一种基于形状感知卷积的rgb
‑
d图像语义分割方法。
[0041]
一种基于形状感知卷积的rgb
‑
d图像语义分割方法,包括:
[0042]
获取待语义分割的rgb图像和深度图像;
[0043]
将rgb图像及深度图像逐通道拼接,将拼接后的图像输入预先训练的语义 分割模型中,输出语义分割结果;
[0044]
其中,所述语义分割模型包括若干形状感知卷积层,其中,所述形状感知 卷积层包括自学习权重的基础内核和形状内核;所述形状感知卷积层将输入的 图像块分解为基础分量和形状分量,并分别通过所述基础内核和形状内核进行 处理,最后将经过处理的分量通过元素相加的方式组合起来,获得形状感知图 像块。
[0045]
需要说明的是,所述rgb
‑
d图像=rgb图像 depth map图像,其中,rgb色 彩模式是工业界的一种颜色标准,是通过对红(r)、绿(g)、蓝(b)三个颜色通道 的变化以及它们相互之间的叠加来得到各式各样的颜色的,rgb即是代表红、绿、 蓝三个通道的颜色,这个标准几乎包括了人类视力所能感知的所有颜色,是目 前运用最广的颜色系统之一。depth map:在3d计算机图形中,depth map(深 度图)是包含与视点的场景对象的表面的距离有关的信息的图像或图像通道。 其中,depth map类似于灰度图像,只是它的每个像素值是传感器距
离物体的 实际距离。通常rgb图像和depth图像是配准的,因而像素点之间具有一对一 的对应关系。
[0046]
进一步的,所述形状感知卷积层将输入的图像块分解为基础分量和形状分 量,其中,所述基础分量由图像块的平均值构成,所述形状分量由图像块的平 均值与绝对值的残差构成。
[0047]
进一步的,所述获得形状感知图像块后,利用普通卷积核对所述形状感知 图像块进行卷积。
[0048]
进一步的,所述基础内核采用基础乘法,所述基础乘法为自定义算数 符号,具体如下:
[0049][0050]
其中,每个元素的计算方式如下:
[0051][0052]
其中,p
b
为基础分量,w
b
为权重基础内核,c
in
为所在卷积层的输入通道数。 所述形状乘法“*”为自定义算数符号,具体如下:
[0053]
p
s
=w
s
*p
s
[0054]
其中,每个元素的计算方式如下:
[0055][0056]
其中,p
s
为形状分量,w
s
为权重形状内核,(k
h
,k
w
)为所在卷积层的窗口 大小。
[0057]
具体的,为了便于理解,以下结合附图对本公开所述方案进行详细说明:
[0058]
为了解决背景技术中提到的问题,我们提出了一种形状感知卷积 (shapeconv),以学习形状和其他信息之间的自适应平衡,使网络可以适当的 更加关注形状信息,从而帮助rgb
‑
d语义分割任务。
[0059]
我们首先将一个输入图像块(即卷积层输入特征的操作单位,其空间大小 与卷积核相同)分解为两个分量,即形状分量和基础分量。其中,图像块的平 均值构成基础分量,而平均值与绝对值的残差是构成了形状分量。具体来说, 对于一个输入图像块(如图1中的p1,其中,图1为rgb
‑
d图像的形状分量重 要性的可视化展示。相同颜色的图像块代表椅子的相同部位,具有相同的形状 分量,但基础分量不同),基础分量描述了图像块所在的物理位置,即图像块所 在部位距离观测点的距离;而形状分量则表达了这个图像块是什么部位,例如 这是椅子背。
[0060]
然后,我们定义两种操作,即“基础乘法”和“形状乘法”,分别添加两个 可学习的权重,即“基础内核”和“形状内核”,来处理这两个分量。然后,这 两个经过处理的分量再以加法方式结合起来,形成一个形状感知图像块,并进 一步用普通卷积核进行卷积。与原始图像块相比,形状感知图像块可以自适应 地学习“形状内核”以提取这个图像块的形状特征,而“基础内核”可以平衡
ꢀ“
基础内核”和“形状内核”对最终预测结果的贡献。
[0061]
具体来讲,我们提出将一个输入图像块p解为两个分量:一个是描述图像块 位置的基础分量p
b
,另一个是表达图像块是什么的形状分量p
s
。计算方式如下:
[0062]
p
b
=m(p)
[0063]
p
s
=p
‑
m(p)
过图3中的可视化结果发现shapeconv可以显著提高物体边界周围的分割精度, 这表明了对深度信息的有效利用。
[0080]
表1.在nyudv2(
‑
13)数据集上与基线方法的性能比较。基线方法和 shapeconv都是采用deeplabv3 架构,骨干方法使用resnet50。
[0081]
settingpixel accmean accmean ioubaseline80.072.560.8shapeconv80.473.061.8
[0082]
表2.在sun
‑
rgbd数据集上与基线方法的性能比较。基线方法和shapeconv 都是采用deeplabv3 架构,骨干方法使用resnet50。
[0083]
settingpixel accmean accmean ioubaseline81.156.545.5shapeconv81.656.846.3
[0084]
表3.在sid数据集上与基线方法的性能比较。基线方法和shapeconv都是 采用deeplabv3 架构,骨干方法使用resnet101。
[0085]
settingpixel accmean accmean ioubaseline78.763.254.6shapeconv82.770.060.6
[0086]
如图3所示,为本公开所述方法及基线方法在nyudv2数据集的可视化结果。 输入栏从上到下表示rgb、d、hha图像;gt、baseline和ours中的黑色区域表 示被忽略的类别。(a)和(b)中上行和下行分别展示了nyudv2
‑
40和nyudv2
‑
13 的结果对比,很明显,结合表1至表3以及附图3的展示结果,很明显本公开 所述方案的语义分割结果优于基线方法。
[0087]
本公开所述方案基于“与其物理位置相比,局部几何形状与语义有更强的 联系”提出了形状感知卷积层(shapeconv)来处理rgb
‑
d图像,将深度特征首 先分解为形状分量和基分量,并引入两个独立可学习的权重与分别处理这两个 分量,并将卷积应用于重新加权组合的两个分量上。shapeconv可以很容易地替 换现有语义分割任务网络中的普通卷积层,而集成到大多数cnn中。我们在多 个具有挑战性的室内rgb
‑
d语义分割数据集上进行的实验证明了我们的 shapeconv的有效性。此外,由于shapeconv中新添加的学习权重在测试阶段 为常数,将其融合到普通卷积中,不增加任何额外的开销。因此使用了 shapeconv的语义分割网络的性能可以得到提升的同时,并不会在测试阶段增 加任何计算和内存开销。
[0088]
实施例二:
[0089]
本实施例的目的是提供一种基于形状感知卷积的rgb
‑
d图像语义分割系统。
[0090]
一种基于形状感知卷积的rgb
‑
d图像语义分割系统,包括:
[0091]
图像获取单元,其用于获取待语义分割的rgb图像和深度图像;
[0092]
语义分割单元,其用于将rgb图像及深度图像逐通道拼接,将拼接后的图 像输入预先训练的语义分割模型中,输出语义分割结果;
[0093]
其中,所述语义分割模型包括若干形状感知卷积层,其中,所述形状感知 卷积层包括自学习权重的基础内核和形状内核,所述形状感知卷积层将输入的 图像块分解为基础分量和形状分量,并分别通过所述基础内核和形状内核进行 处理,最后将经过处理的分
量通过元素相加的方式组合起来,获得形状感知图 像块。
[0094]
在更多实施例中,还提供:
[0095]
一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运 行的计算机指令,所述计算机指令被处理器运行时,完成实施例一中所述的方 法。为了简洁,在此不再赘述。
[0096]
应理解,本实施例中,处理器可以是中央处理单元cpu,处理器还可以是其 他通用处理器、数字信号处理器dsp、专用集成电路asic,现成可编程门阵列 fpga或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。 通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0097]
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数 据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存 储设备类型的信息。
[0098]
一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理 器执行时,完成实施例一中所述的方法。
[0099]
实施例一中的方法可以直接体现为硬件处理器执行完成,或者用处理器中 的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读 存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟 的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其 硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
[0100]
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元即算 法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能 究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。 专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但 是这种实现不应认为超出本公开的范围。
[0101]
上述实施例提供的一种基于形状感知卷积的rgb
‑
d图像语义分割方法及系 统可以实现,具有广阔的应用前景。
[0102]
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领 域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则 之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之 内。
转载请注明原文地址:https://win.8miu.com/read-50139.html