毛琳(1977-), 女, 博士, 副教授, 主要研究领域为目标跟踪, 多传感器信息融合
任凤至(1995-), 女, 硕士生, 主要研究领域为计算机视觉, 图像分割
杨大伟(1978-), 男, 博士, 副教授, 主要研究领域为图像处理, 计算机视觉
张汝波(1962-), 男, 博士, 教授, 主要研究领域为智能机器人技术, 智能信息处理技术
提出一种基于卷积神经网络的Transformer模型来解决全景分割任务, 方法借鉴CNN在图像特征学习方面的先天优势, 避免了Transformer被移植到视觉任务中所导致的计算量增加. 基于卷积神经网络的Transformer模型由执行特征域变换的映射器和负责特征提取的提取器这两种基本结构构成, 映射器和提取器的有效结合构成了该模型的网络框架. 映射器由一种Lattice卷积模型实现, 通过对卷积滤波器进行设计和优化来模拟图像的空间关系. 提取器由链式网络实现, 通过链式单元堆叠提高特征提取能力. 基于全景分割的结构和功能, 构建了基于CNN的全景分割Transformer网络. 在MS COCO和Cityscapes数据集的实验结果表明, 所提方法具有优异的性能.
This study proposes a convolutional neural network (CNN) based Transformer to solve the panoptic segmentation task. The method draws on the inherent advantages of the CNN in image feature learning and avoids increase in the amount of calculation when the Transformer is transplanted into the vision task. The CNN-based Transformer is attributed to the two basic structures of the projector performing the feature domain transformation and the extractor responsible for the feature extraction. The effective combination of the projector and the extractor forms the framework of the CNN-based Transformer. Specifically, the projector is implemented by a lattice convolution that models the spatial relationship of the image by designing and optimizing the convolution filter configuration. The extractor is performed by a chain network that improves feature extraction capabilities by chain block stacking. Considering the framework and the substantial function of panoptic segmentation, the CNN-based Transformer is successfully applied to solve the panoptic segmentation task. The experimental results on the MS COCO and Cityscapes datasets demonstrate that the proposed method has excellent performance.
全景分割[
伴随着诸多体系架构的成熟, 基于卷积神经网络的全景分割网络逐渐成形. 一些算法[
为推进图像分割的发展, 学者尝试将Transformer的架构套用于分割网络以打造新型网络架构. Transformer本质是通过特征域变换来寻求新的视角解决图像任务. 图像Transformer依靠映射(projection)、注意力机制和MLP来实现变换的目的. Projection将图像抽象为具有位置信息嵌入的序列; 注意力机制通过全局感受野获取上下文语义信息及全局依赖关系; MLP辅助注意力结构进行信息提取. SETR[
基于这一问题, 我们致力于构建基于卷积神经网络的Transformer模型(CNN based Transformer, CBT)来解决全景分割问题. 通过CNN来构造Transformer, 能够在一种新的特征域内解释图像分割任务, 利用CNN对图像特征的敏感性设计映射器, 进行特征域变换; 提出提取器配合映射器使用, 对域变换前后的特征进行提取操作, 保障分割质量. 3种典型的全景分割网络架构如
网络架构(CNN 1代表语义分割, CNN 2代表实例分割)
基于CNN的全景分割网络的工作重点为语义分割和实例分割的有效联合, 因此, 语义和实例分割网络的研究及其联合是该类工作的重要部分.
实例分割: 实例分割的目标是区分同一对象的不同实例, 因此, 其任务关键在于提取目标的显著信息从而区分不同实例. 当前主要存在两类实例分割网络: 以Mask R-CNN为代表的双阶段网络和单阶段网络. 双阶段网络[
语义分割: 语义分割的任务是为图像中的所有像素分配类别标签, 从而实现像素级分割, 因此, 全局特征和上下文语义信息的获取是语义分割的重点. 目前存在两类语义分割网络结构: 第1类网络是编解码网络[
全景分割: Panoptic FPN[
Transformers: Transformers常用于机器翻译和自然语言处理. 近年来, 在图像识别任务中, Transformer被视为卷积神经网络的可行替代方案. 一些工作单纯使用Transformer的结构来完成图像任务. ViT[
除了计算复杂度的增加, Transformer在精度上的性能表现还存在一些缺陷, 这主要是由Transformer网络结构所决定的. 在图像任务中, Transformer需要先将输入图像映射为众多小的特征图, 而后利用注意力和MLP等结构, 为这些特征图嵌入位置信息并使用注意力模型提取特征. 然而, 由于projection和MLP会对图像本身的空间关系造成破坏; 再加上, 注意力网络和MLP结构对图像空间关系和局部细节特征的提取能力与CNN相比相对较弱, 这些由结构本身带来的不利条件使得Transformer在图像领域的应用仍然面临阻碍.
为增强Transformer对图像空间关系的感知能力, CvT[
本节分为3部分来论述基于卷积神经网络的Transformer模型的构建过程. 第3.1节介绍模型的构成单元, 即映射器和提取器的设计; 第3.2节给出模型的框架结构, 即如何组建映射器和提取器; 第3.3节使用该模型设计全景分割网络.
基于卷积神经网络的Transformer模型的构成单元是映射器和提取器, 映射器负责特征域变换的操作, 提取器则承担着变换前后特征的提取工作, 如
映射器和提取器
定义
其中,
映射器的本质是一种特征变换, 将输入信息从当前域(
卷积映射器的设计有两个方面的考虑, 一是以空间利用率为线索来挖掘现有卷积滤波器物理设计上的潜能, 二是通过滤波器内部空间关系的建模优化特征映射方法. 根据空间利用率由大到小的顺序, 本文给出4种具有不同空间关系的卷积滤波器PL1, PL2, PL3, PL4. 因其形似“Lattice”, 故将其称为Lattice卷积模型,
Lattice 卷积模型
Lattice卷积模型通过标准卷积和空洞卷积的组合来构建滤波器内部的空间关系模型. 定义Lattice卷积滤波器的稀疏率为
• PL2型的Lattice卷积的构造方法为:
• PL3型的Lattice卷积的构造方法为:
• PL4型的Lattice卷积的构造方法为:
• 特别地, PL1型的Lattice卷积表现为标准卷积滤波器, 是全映射.
Construction method of the lattice convolution model (
Lattice卷积模型的构造方法(
Lattice卷积模型通过对滤波器稀疏性的控制构造了不同的空间关系模型, 从而形成多种特征映射方法. PL1型的Lattice卷积表现为特征的全映射, 通过卷积空间的全部利用来全面且诚实地反映输入的信息; 剩下的3种卷积空间关系模型是为提取图像边缘、细节特征而设计的, 通过卷积模板的路径来拟合图像中各线条间的逻辑关系. PL2型和PL3型的Lattice卷积通过抑制部分无意义像素的表达来强化边缘特征等线条的表现; 稀疏率最大的PL4型Lattice卷积的分布是对角线位置来抓取图像全局的主要信息.
定义
其中,
提取器是由卷积网络构建的, 其计算过程是在同一个特征域内完成的. 提取器的本质是不断地卷积计算, 通过参数的学习, 使得卷积具备过滤知识的能力, 继而提取有用特征, 提升网络性能. 特征提取能力的高低取决于网络架构的优化设计, 于是我们将映射器用作卷积滤波器, 在网络架构的层面上开展提取器的设计工作.
网络架构的改进主要有网络深度和宽度两个方面. 在网络宽度上, 通常采用多路并行处理结构来拓宽网络提高特征的丰富性. 在网络深度方面则通过网络层数的增加来实现特征质量的提升. 得益于ResNet的提出, 深度卷积神经网络得以迅速发展, 而基本单元复制堆叠的思想也得到了广泛传播和使用. 受此启发, 本文提出链式网络作为提取器, 该网络通过一种精巧的单元结构——链式单元来完成特征的层次化提取, 利用这一单元结构的复制堆叠深化网络的特征提取能力. 链式单元由映射器及其参考支路构成, 映射器执行特征映射过程, 参考支路通过shortcut来保持原始特征信息, 使得映射变换过程在原始信息的参考下实现特定目的的提取功能.
根据构造方法的不同, 链式网络有EC1和EC2两种类型. 如
链式网络及其构造方法
EC1型链式网络中链式单元采取顺序堆叠方式, 单元中的映射器位于链式网络同侧. 这种结构设计能够层次化地提取特征, 丰富特征体系.
• 假定
其中,
从公式(6)可见, EC1网络能够收获多层次特征, 随着网络深度的延长, 特征信息的丰富性和层次性会逐渐提高. 能够拥有这样的特征提取效果与网络结构的设计是分不开的, 一方面, EC1型网络中映射器同侧排布的结构特点能够对特征进行逐层提取, 不断前进, 获取深层次特征; 另一方面, 捷径结构的使用使得提取到不同的层次特征得以保留, 维持了特征层次系统的完整性. 这样的网络结构为EC1网络的特征提取能力提供了坚实的基础, 保证了网络在图像识别任务上的性能表现.
与EC1型不同, EC2型链式网络以链式单元及其翻转结构的组合作为基本单元进行复制堆叠, 单元中的映射器位于网络异侧. EC2型网络通过函数位置的变换来激发自身的学习潜能, 避免提取方式的固化, 深层挖掘特征信息.
• 假定2
其中,
在EC1型网络基础上提出EC2型网络的目的是为了给特征层次化提取的过程赋予不确定的因素, 以避免固定提取方法可能会引起的效率降低问题. EC2型链式网络将链式单元和它的翻转结构作为基本构成单元, 构造映射器异侧分布的结构形态, 映射函数的位置变换打乱了传统的提取模式, 给网络创造了学习空间, 通过结构上的调整开发网络的学习潜力, 实现提取能力的提升.
映射器(可缩写为P)是基于CNN的Transformer模型的核心, 它的功能是处理空间级别的特征, 空间变换器网络[
在基于CNN的Transformer网络中, 位于映射器前的提取器能够对要变换的特征进行预处理, 形成一个“E-P”型结构, 这种结构常用于以CNN为骨干的Transformer模型, 如DETR[
映射器和提取器的组合形式
结构 | 描述 |
E-P | 预处理, 域变换 |
P-E | 域变换, 特征提纯 |
E-P-E | 预处理, 域变换, 特征提纯 |
要用基于CNN的Transformer网络来完成全景分割, 要先对全景分割任务进行功能分析. 全景分割需实现对实例和填充物两类目标的分割, 因此, 其网络通常由主干、实例分割和语义分割这3个模块构成. 自然地, Transformer网络也必须具备实现这3种功能的结构来完成全景分割任务, 根据这一需求, 将提取器作为全景分割的主干, 执行特征预处理操作; 针对两种不同的分割任务, 利用映射器实现特征域的变换, 并再次使用提取器以确保分割质量, 通过映射器和提取器的组合来完成实例分割和语义分割的任务. 基于CNN的全景分割Transformer网络的构成如
基于CNN的全景分割Transformer的网络框架
结构 | 主干 | 实例分割 | 语义分割 |
映射器 | - | PL1 | PL2 |
提取器 | EC1 | EC2 | EC2 |
网络框架 | E-P-E |
基于CNN的全景分割Transformer网络由网络主干, 映射器和提取器这3部分构成. 我们以EC1型网络设计网络主干, 对输入信息进行统一层次化的特征提取; 根据面向对象的不同, 实例分割和语义分割采用的映射器是不同的, 我们选定不同的Lattice卷积模型以实现通用特征到前景目标域和背景填充域的变换; 而后使用EC2型链式网络对映射后的特征进行精炼萃取和精密预测; 最后融合两种分割结果, 形成全景分割预测结果. 基于CNN的全景分割Transformer网络结构如
基于CNN的全景分割Transformer网络
网络主干: 基于功能需求分析, 主干网络需为后面分割任务的执行提供通用且丰富的特征, 因此, 我们使用了EC1型网络, 利用链式学习原理将卷积映射器置于主干网络同侧, 逐层提取输入图像的特征信息, 丰富特征层次. 并且, 将标准卷积作为映射器, 保证信息的全面性. 网络主干分为下采样和上采样两部分, 下采样阶段以残差模块充当映射器, 对输入图像进行特征编码; 上采样阶段则利用反卷积恢复空间关系完成解码过程. 我们沿用了FPN的跨层连接, 在编码和解码网络间建立了信息联系, 以提升主干网络的性能. 最终由主干网络的上采样部分输出4层特征{b1, b2, b3, b4}以供后面分割网络使用.
映射器: 针对两种识别对象, 本文选择了PL1和PL2两个映射器分别进行映射变换.
实例目标通常是体积较小且具有固定形状的目标, 实例分割的重点是区分不同的实例个体, 于是挖掘实例的细节特征以确定各个实例目标的独特性便成了重要事宜. 细节特征往往是对实例目标的深层提取获得的, 因此, 细节特征可看作是实例目标深层特征的映射. 所以, 我们堆叠了3层稀疏率等于1的Lattice卷积作为实例分割的映射器
填充目标往往体积较大且没有固定形状, 对这类目标进行分割的关键在于对填充区域像素的准确分类, 为区域像素确定类别归属的首要问题是找到区域边界, 因此, 填充目标边缘特征的获取对语义分割这一任务至关重要, 故我们使用稀疏率
提取器: 特征映射变换后, 需使用特征提取网络对映射后的特征质量提供保证, 此处我们使用了EC2型网络强化特征的表现力, 并与
本文使用MS COCO[
其中,
基于PyTorch平台[
我们在MS COCO和Cityscapes数据集上将提出方法与其他全景分割方法进行了比较. 如
MS COCO全景分割实验结果对比
Method | Backbone | |||||
DeeperLab[ |
Xception71 | 34.3 | 37.5 | 29.6 | 77.1 | 43.1 |
Panoptic-DeepLab[ |
Xception71 | 39.7 | 43.9 | 33.2 | - | - |
JSIS-Net[ |
ResNet50 | 26.9 | 29.3 | 23.3 | 72.4 | 35.7 |
AdaptIS[ |
ResNet50 | 35.9 | 40.3 | 29.3 | - | - |
Panoptic FPN[ |
ResNet50 | 39.0 | 45.9 | 28.7 | - | - |
OANet[ |
ResNet50 | 39.0 | 48.3 | 24.9 | 77.1 | 47.8 |
AUNet[ |
ResNet50 | 39.6 | 25.2 | - | - | |
TASCNet[ |
ResNet50 | 40.7 | 47.0 | 31.0 | 50.1 | |
SpatialFlow[ |
ResNet50 | 40.9 | 46.8 | 31.9 | - | - |
UPSNet[ |
ResNet50 | 42.5 | 48.5 | 33.4 | 78.0 | 52.4 |
CBT | ResNet50 | 48.8 | 78.1 |
Cityscapes全景分割实验结果对比
Method | Backbone | |||||
DeeperLab[ |
Xception71 | 56.5 | 37.5 | 29.6 | 77.1 | 43.1 |
Panotic-DeepLab[ |
Xception71 | 63.0 | - | - | - | - |
TASCNet[ |
ResNet50 | 55.9 | 50.5 | 59.8 | - | - |
AUNet[ |
ResNet50 | 56.4 | 52.7 | 59.0 | - | - |
Panoptic FPN[ |
ResNet50 | 57.7 | 51.6 | 62.2 | - | - |
SpatialFlow[ |
ResNet50 | 58.6 | 54.9 | 61.4 | - | - |
AdaptIS[ |
ResNet50 | 59.0 | 61.3 | - | - | |
UPSNet[ |
ResNet50 | 59.3 | 54.6 | 62.7 | 79.7 | 73.0 |
CBT | ResNet50 | 55.0 |
总体上, 基于CNN的全景分割Transformer网络的性能优于现存全景分割算法,
运行时间对比
数据集 | Method | Backbone | Input size | Speed (ms) | |
MS COCO | DeeperLab[ |
Xception71 | 641×641 | 34.3 | 119 |
Panoptic-DeepLab[ |
Xception71 | 641×641 | 39.7 | 132 | |
UPSNet[ |
ResNet50 | 800×1300 | 42.5 | 167 | |
CBT | ResNet50 | 800×1300 | 42.9 | 174 | |
Cityscapes | DeeperLab[ |
Xception71 | 1025×2049 | 34.3 | 463 |
Panotic-DeepLab[ |
Xception71 | 1025×2049 | 63.0 | 175 | |
UPSNet[ |
ResNet50 | 1024×2048 | 59.3 | 202 | |
CBT | ResNet50 | 1024×2048 | 59.4 | 208 |
CBT和CNN的全景分割结果对比图
在本节中, 我们开展映射器和提取器的消融实验, 分析它们在基于CNN的Transformer网络中的功能和作用. 全部消融实验均在MS COCO验证集上使用单个GPU进行验证.
MS COCO 映射器消融实验
Model | Backbone (EC1) | Projector | Extractor (EC2) | ||||
Thing (PL1) | Stuff (PL2) | ||||||
M1 | √ | √ | 38.1 | 44.0 | 29.1 | ||
M2 | √ | √ | √ | 38.5 | 44.3 | 29.8 | |
M3 | √ | √ | √ | 38.2 | 44.2 | 29.1 | |
M4 | √ | √ | √ | √ |
Lattice卷积模型:
Lattice卷积模型消融实验
Model | ||||
None | - | 38.0 | 76.4 | 47.7 |
PL1 |
|
38.2 | 76.7 | 47.7 |
PL2 |
|
38.3 | 76.7 | 47.9 |
PL3 |
|
38.3 | 76.6 | 47.7 |
PL4 |
|
38.4 | 76.8 | 47.9 |
Lattice卷积模型的可视化对比
我们在提取器中进行了链式网络的消融实验.
Ablation experiment of the chain network (
链式网络消融实验(
0 | 38.4 | 76.4 | 48.1 |
2 | 39.0 | 76.8 | 48.6 |
4 | 37.9 | 76.0 | 47.2 |
6 | 37.7 | 76.0 | 47.0 |
本文提出了一种基于CNN的Transformer网络, 利用CNN在图像特征建模方面的优势来完成视觉任务. 我们创建了基于CNN的Transformer的网络框架, 该框架包含两个基本结构, 即用于特征域变换的映射器和用于特征提取的提取器. 映射器由模拟图像空间关系的Lattice卷积模型实现, 而提取器由具有深度堆叠能力的链式网络实现. 在框架下, 根据全景分割任务的功能需求, 有效组织映射器和提取器, 形成基于CNN的全景分割Transformer网络.
基于CNN的Transformer模型为Transformer在视觉任务中的应用开辟了一条新途径, 该模型对图像特征的敏感性使其自然适用于图像处理任务. CNN构建的Lattice卷积设计了各种图像空间关系模型, 给卷积滤波器的配置设计和空间利用带来了很多思考. 基于CNN的链式网络也提供了一种新的特征提取方法.
Badrinarayanan V, Kendall A, Cipolla R. SegNet: A deep convolutional encoder-decoder architecture for image segmentation. IEEE Trans. on Pattern Analysis and Machine Intelligence, 2017, 39(12): 2481–2495.
Chen LC, Papandreou G, Kokkinos I, Murphy K, Yuille AL. DeepLab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs. IEEE Trans. on Pattern Analysis and Machine Intelligence, 2018, 40(4): 834–848.
Liang XD, Lin L, Wei YC, Shen XH, Yang JC, Yan SC. Proposal-free network for instance-level object segmentation. IEEE Trans. on Pattern Analysis and Machine Intelligence, 2018, 40(12): 2978–2991.
Chen Q, Cheng AD, He XY, Wang PS, Cheng J. SpatialFlow: Bridging all tasks for panoptic segmentation. IEEE Trans. on Circuits and Systems for Video Technology, 2021, 31(6): 2288–2300.