摘 要:为了解决交通场景解析中局部和全局上下文信息自适应聚合的问题,提出了3模块架构的局部和全局上下文注意力融合网络。前端的特征提取模块由基于串联空洞空间金字塔池化单元改进的ResNet-101(101-layer Residual Network)网络组成,能够更加有效地提取物体的多尺度局部特征。中端的结构化学习模块由8路长短期记忆网络分支组成,可以更加准确地推理物体邻近8个不同方向上场景区域的空间结构化特征。后端的特征融合模块采用基于注意力机制的3阶段融合方式,能够根据多尺度局部特征和8个不同方向上推理的空间结构化特征之间的相关性自适应地聚合有用上下文信息和屏蔽噪声上下文信息,生成的多模态融合特征能够更加全面而准确地表示物体的语义信息。实验结果表明,在Cityscapes标准和扩展数据集上,较逆变换网络(ITN)、多层多尺度注意力网络(HMAN)和对象上下文表示网络(OCRN)等当前先进方法相比,所提网络分别实现了最优的平均交叉准确率84.0%和86.3%。
关键词:交通场景解析;自适应聚合;串联空洞空间金字塔池化;长短期记忆网络;注意力融合;
Local and global context attentive fusion network for traffic scene parsing
WANG Zeyu
BU Shuhui HUANG Wei
ZHENG Yuanpan WU Qinggang ZHANG Xu
College of Computer and Communication Engineering, Zhengzhou University of Light Industry
School of Aeronautics, Northwestern Polytechnical University
Abstract:
In order to solve the local and global contextual information adaptive aggregation problem in traffic scene parsing, a local and global context attentive fusion network with three-module architecture was proposed. The front-end feature learning module consisted of the improved 101-layer Residual Network (ResNet-101) which was based on the cascaded atrous spatial pyramid pooling unit, and was able to extract objects’ multi-scale local features more effectively. The mid-end structural learning module was composed of eight long short-term memory network branches, and could more accurately infer spatial structural features of objects’ adjacent scene regions in eight different directions. The back-end feature fusion module adopted a three-stage fusion method based on attention mechanism, and was able to adaptively aggregate useful contextual information and shield noisy contextual information according to the correlation between multi-scale local features and spatial structural features inferred from eight different directions, so the generated multi-modal fusion features could represent objects’ semantic information in a more comprehensive and accurate way. The experimental results demonstrate that compared to existing state-of-the-art methods such as Inverse Transformation Network (ITN), Hierarchical Multi-scale Attention Network (HMAN), and Object Contextual Representation Network (OCRN), the proposed network achieves the best mean intersection over union accuracy 84.0% and 86.3% on Cityscapes standard and extended datasets, respectively.
Keyword:
traffic scene parsing; adaptive aggregation; cascaded atrous spatial pyramid pooling; long short-term memory network; attentive fusion;
0 引言
场景解析[1]作为计算机视觉方向上的基础工作,它的核心技术问题是如何准确地为图像中每个像素做分类。高精度的场景解析对于有效地实现机器人任务规划[2]、自动驾驶[3]以及语义SLAM(Simultaneous Localization and Mapping)[4]等智能计算机视觉任务起到至关重要的作用。由于真实的场景复杂多变,特别是交通场景,图像中不仅包含多个不同类别的物体,而且物体的空间位置并不固定。因此,高精度的场景解析需要解决如下3个问题:1)如何有效地提取图像中物体的视觉外观信息;2)如何准确地推理物体的全局上下文信息;3)如何自适应地完成上述两类特征的融合。
文献[5]首次基于卷积神经网络(Convolutional Neural Network, CNN)提出面向场景解析的全卷积网络FCN(Fully Convolutional Network),并通过有效的视觉特征提取而取得巨大成功。但是,由于CNN卷积核的感知域较小,空间结构化学习能力较弱,提取的视觉特征一般缺少全局上下文信息。为此,条件随机场被作为CNN的后端,通过优化图模型上定义的能量函数,使得特征相近的相邻物体类别相同,相差较大的类别不同,从而实现场景解析的一致性和平滑性优化[6]。另外,由于具有门和存储结构的长短期记忆网络(Long Short-Term Memory Network, LSTM)可以模拟人脑的机制记忆和遗忘信息,因此LSTM被添加到CNN的后端,从而通过逐像素地遍历图像视觉特征来获取物体间的空间依赖关系[7]。此外,PSPN(Pyramid Scene Parsing Network)[8]、DASPP(Densely connected Atrous Spatial Pyramid Pooling)[9]、DeepLab(Deep Labelling)[10]和多层多尺度注意力网络(Hierarchical Multi-scale Attention Network, HMAN)[11]等方法通过具有多尺度感受野的空洞空间金字塔池化单元提取物体所处场景的局部和全局上下文信息,从而避免单一视觉特征可能导致的分类错误。但是,上述方法在上下文信息推理过程中没有充分地考虑全局场景的空间结构化特征与局部对象自身的视觉外观特征间的相关性,从而可能使得全局噪声信息融入视觉特征当中,进而影响分类特征的鲁棒性。
为了解决此问题,基于注意力机制[12]的全局上下文信息推理方法[13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31]被广泛地应用于场景解析研究中。文献[13]提出基于空间和通道注意力模块的双注意力网络DAN(Dual Attention Network),从而根据物体的视觉外观特点自适应地聚合全局上下文信息。相似地,门控金字塔网络(Gated Pyramid Network,GPN)[19]通过门控金字塔模块过滤全局噪声信息,从而确保融合生成特征的质量。在此基础上,上下文先验网络(Context Prior Network, CPN)[16]内嵌基于亲和损失的上下文先验层,从而根据亲和损失监督学习的上下文先验知识有选择性地获取类别内和类别间的上下文依赖关系,从而提升特征表示的鲁棒性。类似地,语义约束的注意力细化网络(Semantic Constrained Attention Refinement Network, SCARN)[18]通过语义约束的注意力机制有效地学习类别内的上下文依赖关系,从而有效地增强整个物体特征信息的一致性。另外,对象上下文表示网络(Object Contextual Representation Network, OCRN)[14]基于对象上下文表示实现像素上下文的有效聚合,该方法首先对场景中的物体进行初步分割并聚合得到对象上下文表示,然后计算像素自身特征与场景中每个对象上下文表示的相关性,最后根据相关联程度自适应地聚合对象上下文信息,从而有效地增强每个像素的特征表示,并取得较优的场景解析准确率。但是,上述方法没有充分地考虑全局场景的空间结构化特性,例如:骑手和行人的上方一般是天空,而骑手和行人的下方分别是自行车和道路,因此,如何有效地聚合骑手和行人下方的上下文信息是区分骑手和行人的关键,而现有方法一般直接自适应聚合所有像素的上下文信息,从而由于依赖关系过度复杂而无法有效地聚合有用上下文信息和屏蔽噪声上下文信息,进而影响聚合后特征表示的质量,甚至导致分类错误。
为此,本文面向复杂交通场景提出局部和全局上下文注意力融合网络(Local and Global Context Attentive Fusion Network, LGCAFN),LGCAFN由特征提取模块、结构化学习模块和特征融合模块3部分构成。其中,前端的特征提取模块由改进的ResNet-101(101-layer Residual Network)网络[32]构成,用来提取物体的多尺度局部特征;中间的结构化学习模块由8路LSTM分支组成,8路LSTM分支分别在8个不同的方向上逐像素地遍历多尺度局部特征,从而利用LSTM的显式推理能力获取物体邻近8个不同场景区域的全局上下文信息,进而生成物体的空间结构化特征;后端的特征融合模块根据物体的多尺度局部特征和空间结构化特征的相关性做3阶段特征融合,从而基于注意力机制自适应地聚合有用上下文信息和屏蔽噪声上下文信息。
本文的主要工作如下:
1)基于串联空洞空间金字塔池化单元的改进ResNet-101网络:本文基于ResNet-101网络构建特征提取模块,并修改ResNet-101网络第2到5层为串联空洞空间金字塔池化(Cascaded Atrous Spatial Pyramid Pooling, CASPP)单元,CASPP单元由稀疏采样率顺序递增的空洞卷积串联而成,在此基础上,本文级联改进ResNet-101网络各层的输出特征,从而通过感知域的逐渐增大来提取物体不同尺度的局部上下文信息。
2)全局上下文信息的显式推理:本文通过8路LSTM分支分别在8个不同的方向上逐像素地遍历多尺度局部特征,从而显式地学习物体邻近上、下、左、右、左上、右下、右上和左下8个不同场景区域的全局上下文信息,推理生成的空间结构化特征能够全面而准确地描述全局场景的结构化特性。
3)基于注意力机制的多模态特征融合:本文根据物体邻近8个不同场景区域的全局上下文信息与其自身局部视觉外观信息的相关性做加权特征融合,自适应聚合生成的多模态融合特征能够高质量地表达物体的综合语义信息。
本文在标准交通场景数据集Cityscapes[33]上进行对比实验,实验结果表明,LGCAFN与当前先进方法相比能够提升交通场景解析的准确率。
1 局部和全局上下文注意力融合网络
本文所提局部和全局上下文注意力融合网络LGCAFN共包含3个部分:特征提取模块、结构化学习模块和特征融合模块。其中,特征提取模块由ResNet-101网络构成,在此基础上,本文修改ResNet-101网络第2到5层的结构为串联空洞空间金字塔池化单元CASPP,从而通过级联改进ResNet-101网络各层输出特征提取物体的多尺度局部特征;结构化学习模块由8路LSTM分支组成,8路LSTM分支分别在8个不同的方向上逐像素地遍历多尺度局部特征,从而学习物体邻近8个不同场景区域的全局上下文信息,进而推理生成空间结构化特征;特征融合模块采用3阶段特征融方式对物体的多尺度局部特征和空间结构化特征依次做基于多层卷积操作的降维融合、基于注意力机制的加权融合以及基于反池化和反卷积操作的解码融合,最后利用softmax分类器根据自适应聚合的多模态融合特征逐像素地标注交通场景类别。LGCAFN的框架如图1所示。
1.1 基于串联空洞空间金字塔池化单元的特征提取模块
特征提取模块通过改进的ResNet-101网络提取输入RGB(Red, Green, and Blue)图像的多尺度局部特征(Multi-scale Local Features, MLF),图2展示了多尺度局部特征的提取过程。原始的ResNet-101网络共包含5层,其中第1层由7×7卷积操作和3×3最大池化操作组成,第2到5层分别由两类残差卷积单元(Residual Convolution Unit, RCU)构成,两类单元RCU1和RCU2均由1×1卷积操作、3×3卷积操作和1×1卷积操作顺序堆叠而成[32]。为了进一步增大特征提取模块的感知域,本文一方面修改ResNet-101网络第1层中7×7卷积操作为空洞卷积操作,另一方面修改RCU1和RCU2单元内的3×3卷积操作为稀疏采样率可自设定的空洞卷积操作,从而改进ResNet-101网络第2到5层为稀疏采样率顺序递增的串联空洞空间金字塔池化单元CASPP。
特征提取模块采用端到端的方式逐层提取特征,模块中第l层的输出特征可以定义为如下形式:
FMLFl={maxpool(conv(I,r1)),casppl(FMLFl−1,rl),l=1,2≤l≤5,(1)
其中:I表示输入RGB图像;FlMLF表示特征提取模块第l层的输出特征;函数conv和maxpool分别表示第1层中的7×7空洞卷积操作和3×3最大池化操作;r1表示conv的稀疏采样率;函数casppl表示第l层串联空洞空间金字塔池化单元对应的操作;rl表示casppl中3×3卷积操作组对应的稀疏采样率组。
为了提取RGB图像的多尺度局部特征,本文首先上采样特征提取模块各层的输出特征,使新生特征尺寸为输入图像尺寸的1/4,然后级联各层上采样后的特征并送入多层卷积操作做特征降维,从而生成RGB图像的多尺度局部特征FMLF:
(2)
其中:函数conv表示3层1×1卷积操作;n、H/4和W/4分别表示多尺度局部特征的维数、高度和宽度;函数up(FMLFl)∈Rnl×H/4×W/4表示上采样操作;nl表示特征提取模块第l层输出特征的维数。
对于多尺度局部特征中的像素(i, j),像素的特征可以表示成如下形式:
fMLFi,j=FMLF(i,j)∈Rn,1≤i≤W/4,1≤j≤H/4.(3)
为了提取物体高质量的视觉特征表示,本文在特征提取模块各层中采用稀疏采样率顺序递增的串联空洞空间金字塔池化单元,这样能够显著地增大特征提取模块的感知域,从而使模块各层的输出特征包含更加丰富的局部上下文信息。通过级联各层输出特征得到的多尺度局部特征由物体不同抽象级别的局部上下文信息组成,从而能够更加准确地描述物体的视觉外观特点。
1.2 基于8路长短期记忆网络分支的结构化学习模块
为了有效地学习全局场景的空间结构化特性,本文将物体所处全局场景划分为上、下、左、右、左上、右下、右上和左下8个不同的区域,并采用8路长短期记忆网络(Long Short-Term Memory Network, LSTM)[7]分支显式地推理物体邻近8个不同区域的全局上下文信息,进而通过级联不同区域的上下文信息获取物体的空间结构化特征(Spatial Structural Features, SSF)。8路LSTM分支均包含5层单向的LSTM单元,分别在8个不同的方向上逐像素地遍历特征提取模块输出的多尺度局部特征MLF:①从上到下(↓),②从下到上(↑),③从左到右(→),④从右到左(←),⑤从左上到右下(↘),⑥从右下到左上(↖),⑦从右上到左下(↙),⑧从左下到右上(↗),图3展示了空间结构化特征的推理过程。结构化学习模块的处理流程可以表示为如下形式:
(4)
其中:函数LSTMl↓(LSTMl↑)表示从上(下)到下(上)遍历分支中的第l层LSTM单元对应的操作,用来对图像中每列i = b按j值递增(递减)的顺序进行逐像素遍历;函数LSTMl→
(LSTMl←)表示从左(右)到右(左)遍历分支中的第l层LSTM单元对应的操作,用来对图像中每行j = b按i值递增(递减)的顺序进行逐像素遍历;函数LSTMl↘(LSTMl↖)表示从左上(右下)到右下(左上)遍历分支中的第l层LSTM单元对应的操作,用来对图像中每条斜线i = j - b按j值递增(递减)的顺序进行逐像素遍历;函数LSTMl↙(LSTMl↗)表示从右上(左下)到左下(右上)遍历分支中的第l层LSTM单元对应的操作,用来对图像中每条斜线j = -i + b按i值递减(递增)的顺序进行逐像素遍历;hl,i,j↓、hl,i,j↑、hl,i,j→、hl,i,j←、hl,i,j↘、hl,i,j↖、hl,i,j↙和hl,i,j↗分别表示第l层LSTMl↓、LSTMl↑、LSTMl→、LSTMl←、
LSTMl↘、LSTMl↖、LSTMl↙和LSTMl↗的隐藏层状态;dl表示第l层各LSTM单元隐藏层状态的维数;多尺度局部特征fi,jMLF表示第1层各LSTM单元的输入;hl-1,i,j表示第l(2≤l≤5)层各LSTM单元的输入特征,它由第l-1层各LSTM单元隐藏层状态级联降维构成;函数conv表示1×1卷积操作。
假设从上到下遍历分支中的第l层LSTMl↓,对于遍历到的像素(i, j),LSTMl↓计算其全局上下文信息(隐藏层状态)hl,i,j↓的过程可以定义为如下形式:
(5)
其中:gatelf表示遗忘门;gateli表示输入门;gatelc表示记忆门;gatelo表示输出门;Wlff、Wlif、Wlcf和Wlof表示输入特征的权重矩阵;Wlfh、Wlih、Wlch和Wloh表示隐藏层状态的权重矩阵;blf、bli、blc和blo表示偏置项;σ表示sigmoid激活函数;⊙表示点乘操作。对于其他7个方向上遍历的LSTMl↑、LSTMl→、LSTMl←、LSTMl↘、LSTMl↖、LSTMl↙和LSTMl↗,它们的计算过程与上述定义类似。
多尺度局部特征经过8个遍历分支在8个不同方向上的逐像素地遍历,本文级联8个分支最后一层各LSTM单元的隐藏层状态,从而生成RGB图像的空间结构化特征FSSF:
(6)
其中:fi,j↓(h5,i,j↓)、fi,j↑(h5,i,j↑)、fi,j→(h5,i,j→)、fi,j←(h5,i,j←)、
fi,j↘(h5,i,j↘)、fi,j↖(h5,i,j↖)、fi,j↙(h5,i,j↙)和fi,j↗(h5,i,j↗)分别表示像素(i, j)在上、下、左、右、左上、右下、右上和左下8个方向上的全局上下文信息,它们的特征维数均为d5。
物体的空间结构化特征由物体邻近8个不同区域(上、下、左、右、左上、右下、右上和左下)的全局上下文信息组成,能够较为全面而准确地描述物体所处全局场景的空间结构化特性。这样,当语义类别间的物体具有相似的视觉外观信息时(例如:行人和骑手),LGCAFN就可以结合物体邻近场景区域的全局上下文信息准确地区分物体的类别;同时,当语义类别内的物体整体特征信息不一致时(例如:地面上有树影的马路),LGCAFN又能够依据物体所处全局场景的结构化特性避免分类错误。
1.3 基于注意力机制的3阶段特征融合模块
经过特征提取模块和结构化学习模块的学习,LGCAFN分别生成物体的多尺度局部特征MLF和空间结构化特征SSF。为了实现上述2类模态特征的自适应融合,本文首先采用多层卷积操作将物体的多尺度局部特征依次与8个邻近场景区域推理的空间结构化特征做第1次降维融合,从而有效地挖掘两类特征之间存在的复杂非线性关系;然后,本文根据两类模态特征之间的相关性自适应地赋予8个不同方向上的降维融合特征对应的权重,并基于注意力机制对8个方向上的降维融合特征做第2次加权融合,从而有效地实现物体邻近8个不同场景区域上下文信息的自适应聚合;最后,本文将加权融合特征和特征提取模块前2层输出的低抽象级别局部特征级联,并通过多层反池化和反卷积操作做第3次解码融合,从而准确地解码还原出每个像素的综合化语义信息。图4展示了特征融合模块的原理。
首先,对于多尺度局部特征和空间结构化特征中的每个像素(i, j),本文将其多尺度局部特征依次与8个方向上推理的空间结构化特征分别级联,并采用共享参数的3层1×1卷积操作对8个方向上级联的混合特征做第1次降维融合,上述融合过程可以表示为如下的形式:
(7)
其中:函数conv表示3层1×1卷积操作;gi,jq表示q方向上的降维融合特征;e1表示降维融合特征的维数。
然后,本文利用softmax函数分别计算不同方向上的降维融合特征对应的注意力权重wi,jq:
(8)
其中:e1表示注意力权重的维数;[0, 1]表示权重信息的取值范围。
接着,本文对8个不同方向上的降维融合特征加权求和,从而生成加权融合特征(Weighted Fusion Features, WFF)fi,jWFF:
(9)
其中:⊙表示点乘操作;fi,jWFF表示像素级的加权融合特征;FWFF表示RGB图像的加权融合特征。
最后,本文级联加权融合特征和特征提取模块前2层输出的低抽象级别局部特征,并通过反池化和反卷积操作解码还原出物体的多模态融合特征(Multi-modal Fusion Features, MFF),进而利用softmax函数对RGB图像逐像素地标注语义类别,上述解码融合过程可以表示为如下的形式:
(10)
其中:函数unpool表示反池化操作;函数deconv表示反卷积操作;FMFF表示RGB图像的多模态融合特征;e2表示多模态融合特征的维数;F1MLF和F2MLF分别表示特征提取模块第1和2层的输出特征;P表示语义分类概率;K表示语义类别个数。
本文所提特征融合模块不仅能够准确地聚合有用的上下文信息,而且可以有效地避免全局噪声信息的引入,聚合生成的多模态融合特征不仅含有物体自身的视觉外观信息,而且包含与其相关性较高的邻近场景区域的全局上下文信息,从而较为准确地表示物体的综合语义。
2 实验与分析
2.1 训练数据集和性能评价标准
为了评价本文LGCAFN,本文在标准交通场景RGB数据集Cityscapes[33]上进行性能测试。Cityscapes数据集共包含5000张高分辨率(1024×2048)的交通场景图像,其中包含训练图像2975张、验证图像500张以及测试图像1525张。该数据集总共包含9.43×109个细粒度标注的像素,被标记为19个交通场景语义类别。为了进一步提升网络性能,本文使用Cityscapes扩展数据集[11]进行训练,扩展集共包含20000张自动标注的图像,从而可以确保各语义类别分布的均衡性。另外,本文使用平均交叉准确率(mean Intersection over Union, mIoU)作为场景解析的评价标准[5]。
2.2 实验环境和参数设置
本文基于开源的深度学习开发框架TensorFlow[34]编码实现LGCAFN,并在一台2颗2.4 GHz Intel Xeon Silver 4214R CPU (2×12 Cores), 24 GB NVIDIA GeForce GTX 3090 GPU以及128 GB内存的计算机上进行训练和测试。
在训练阶段,本文定义目标函数为多类别交叉熵损失[5],并利用反向传播算法[35]实现LGCAFN各层的联合优化。
在特征提取模块,本文通过串联空洞空间金字塔池化单元改进的ResNet-101网络[32]提取物体的多尺度局部特征。首先,本文设定网络第1层内7×7卷积操作的稀疏采样率为2,并设定第2到5层中3×3卷积操作组对应的稀疏采样率组分别为(2, 4, 8)、(2, 4, 8, 16)、(2, 4_6, 8_4, 8_4, 16_4, 24_4)和(4, 8, 16),接着本文通过基于ImageNet数据集训练的公用参数模型resnet_v1_101_2016_08_28[32]初始化特征提取模块的参数,同时设置该模块的学习率为5×10-4;然后,本文上采样改进ResNet-101网络各层的输出特征,各层输出特征的维数分别为64、256、512、1024和2048;最后,本文级联各层上采样后的特征,并将级联后的特征送入3层1×1卷积操作做降维,各卷积层输出特征的维数分别为2048、1024和512。
在结构化学习模块,本文通过8路LSTM分支学习物体邻近8个不同场景区域的全局上下文信息,从而生成空间结构化特征。对于每路LSTM分支而言,均由5个单向的LSTM单元堆叠而成,各单向LSTM单元输出的隐藏层状态的维数分别为512、256、128、256和512。本文在[-0.05, 0.05]的均匀分布下随机地初始化8路LSTM分支的网络参数,并设定结构化学习模块的学习率为10-3。
在特征融合模块,本文首先通过级联的3层1×1卷积操作将多尺度局部特征依次与8个邻近场景区域内学习的空间结构化特征做第1次降维融合,各卷积层输出特征的维数分别为512、256和256;然后,本文利用softmax分类函数分别计算8个方向上降维融合特征对应的注意力权重,并基于注意力机制将8个方向上的降维融合特征加权求和,从而完成第2次加权融合;接着,本文级联加权融合特征和特征提取模块第1和2层输出的低抽象级别局部特征,并通过2层2×2反池化和3×3反卷积操作对级联后的特征做第3次解码融合,解码生成的多模态融合特征的维数为128;最后,本文利用softmax分类器并根据多模态融合特征逐像素地标注RGB图像的语义标签。本文在均值为0、标准差为0.05的正态分布下初始化各卷积层的网络参数,同时设置特征融合模块的学习率为5×10-4。
在完成LGCAFN的网络参数和学习率配置后,本文设置LGCAFN的训练参数为:batch_size = 8、momentum = 0.9、weight_decay = 10-4以及epoch = 500,并采用随机梯度下降算法[36]优化LGCAFN的网络参数。
在测试阶段,本文将测试图像依次输入LGCAFN,并在LGCAFN的网络参数指导下依次输出图像的场景解析结果。
2.3 实验结果与分析
2.3.1 与当前先进方法的对比实验结果
在表1中,本文列出Cityscapes数据集上LGCAFN与当前先进方法的对比实验结果,在Cityscapes原始数据集上,LGCAFN与OCRN[14]、基于空间金字塔的图推理网络(Spatial Pyramid Based Graph Reasoning Network, SPBGRN)[15]、CPN[16]、语义边界增强和定位网络(Semantic Boundary Enhancement and Position Network, SBEPN)[17]、SCARN[18]、GPN[19]、通道化轴向注意力网络(Channelized Axial Attention Network, CAAN)[20]、行列注意力网络(Row-Column Attention Network, RCAN)[21]、上下文集成网络(Contextual Ensemble Network, CEN)[22]和统计纹理学习网络(Statistical Texture Learning Network, STLN)[29]等方法进行比较;在添加了Cityscapes扩展数据集后(“-”表示未使用扩展数据集,“P”表示使用了扩展数据集),本文LGCAFN与HMAN[11]、扩展残差网络(Scaling Wide Residual Network, SWRN)[30]和逆变换网络(Inverse Transformation Network, ITN)[31]等方法进行比较;另外,HMAN[11]、OCRN[14]、RCAN[21]和ITN[31]等方法采用HRNet-W48(48-Width High Resolution Network)[37]作为主干网络,SWRN[30]方法采用SWideRNet-(1, 1, 4.5)(Scaling Wide Residual Network with factors (1, 1, 4.5))[30]作为主干网络,其他方法均采用ResNet-101(101-layer Residual Network)[32]作为主干网络。
在仅使用Cityscapes原始数据集进行训练时,LGCAFN不仅将总的mIoU提升了0.7个百分点,而且提升和保持了12种语义类别的IoU。另外,在添加Cityscapes扩展数据集进行训练时,LGCAFN在总体上同样取得了最优的平均交叉准确率86.3%,同时提升了14种类别的准确率。值得注意的是:1)LGCAFN在围栏、杆、信号灯和交通标识等尺寸较小的语义类别上均取得了最优的分割准确率,一方面说明基于串联空洞空间金字塔池化单元的特征提取模块能够有效地保留尺寸较小物体的视觉细节信息;另一方面说明基于注意力机制和解码结构的特征融合模块不仅能够准确地聚合有用的局部和全局上下文信息,而且可以有效地避免全局噪声信息的引入,从而确保聚合生成的多模态融合特征的鲁棒性;2)LGCAFN在较易混淆的语义类别(例如:行人和骑手、摩托车和自行车)上也取得了最优的分割结果,一方面说明基于8路LSTM分支的结构化学习模块能够准确地学习物体邻近8个不同场景区域的全局上下文信息;另一方面再次说明基于注意力机制的特征融合模块可以根据物体自身局部特征和所处场景全局特征的相关性自适应地聚合有用上下文信息。总之,较当前先进方法相比,LGCAFN能够更加有效地自适应聚合物体所处全局场景的上下文信息,生成的特征表示可以更加全面而准确地表达物体的综合语义信息。
除了以平均交叉准确率mIoU评价网络以外,本文又以浮点数参数量(单位:106)和解析1024×2048分辨率图像所需浮点数运算量(单位:GFLOPs)作为网络模型复杂度的评价标准,并在表2中列出LGCAFN与当前准确性较优方法的复杂度对比结果。从表2中可以发现,本文LGCAFN不仅具有较小的网络参数量,而且具有较低的单帧图像预测运算量,这说明LGCAFN模型尺寸较小且预测延迟较低。另外,LGCAFN具有最优的mIoU,从而证明LGCAFN可以较好地平衡准确性和复杂度。
2.3.2 LGCAFN的消融学习
在表3中,Baseline表示原始的ResNet-101网络的准确率,Baseline+CASPP表示基于串联空洞空间金字塔池化单元的特征提取模块的mIoU,Baseline+CASPP+LSTM表示添加基于8路LSTM分支的结构化学习模块后的场景解析准确率,Baseline+CASPP+LSTM+Attention表示添加基于注意力机制的特征融合模块后的mIoU。
从LGCAFN在Cityscapes数据集(不包含扩展数据集)上的消融学习中可以发现:第一,较Baseline相比Baseline+CASPP将mIoU由77.6%大幅度提升到80.4%,说明串联空洞空间金字塔池化单元能够显著地增大特征提取模块的感知域,从而使提取的多尺度局部特征能够更加准确地描述物体的视觉外观特点;第二,Baseline+CASPP+LSTM的平均交叉准确率较Baseline+CASPP相比提升了2.4个百分点,说明结构化学习模块能够通过8路LSTM分支显式地学习物体邻近8个不同场景区域的全局上下文信息,推理生成的空间结构化特征能够更加准确地描述物体所处全局场景的结构化特性;第三,Baseline+CASPP+LSTM+Attention取得最优的mIoU,说明基于注意力机制的3阶段特征融合模块不仅能够自适应地聚合物体邻近8个场景区域的有效上下文信息,而且可以避免引入相关性较弱的全局噪声信息,聚合生成的多模态融合特征能够更加准地表达物体的综合语义信息。
2.3.3 特征提取模块的稀疏采样率设置学习
假设特征提取模块(基于CASPP单元改进的ResNet-101网络)中第1层的7×7空洞卷积的稀疏采样率为r1,第2到5层中的3×3空洞卷积组对应的稀疏采样率组依次为r2、r3、r4和r5,本文在Cityscapes数据集(不包含扩展数据集)上学习不同的稀疏采样率设置ResNet-101(r1, r2, r3, r4, r5)对于特征提取模块Baseline+CASPP的性能影响,如表4所示。特别地,由于ResNet-101网络第4层中共包含多达23个3×3空洞卷积,为此本文将其分为6组,每组的空洞卷积个数分别为1、6、4、4、4和4,并为每组空洞卷积设置相同的稀疏采样率。
从特征提取模块的稀疏采样率设置学习中可以得到如下结论:第一,如果为模块中所有空洞卷积均设置相同的稀疏采样率(方法1),则随着稀疏采样率由1逐步增大到8,模块的mIoU由77.6%逐步提升到78.9%,说明增大采样率能够显著地增大卷积核的感知域,从而获取更加丰富的局部上下文信息;但是,如果稀疏采样率设置为更大的16或24时,虽然卷积核的感知域进一步增大,但是模块的性能却出现下降,说明在较低层次的ResNet-101网络中,如果稀疏采样率的值设置的过大,即卷积核的感知域设置过大,则会导致无法有效地学习物体的视觉细节信息,从而影响特征表示的质量;第二,仅为ResNet-101网络每层中的空洞卷积组设置相同的稀疏采样率(方法2),而对于不同层中的空洞卷积,若其在较低层次则设置较小的采样率,反之则设置较大的采样率,较第1种采样率设置方法相比,基于ResNet-101(2, (4, 4, 4), (8, 8, 8, 8), (8, 8_6, 8_4, 8_4, 8_4, 8_4), (16, 16, 16))的稀疏采样率设置使得模块的mIoU提升了0.6个百分点,说明该设置下的模块不仅能够利用低层次网络中感知域较小的空洞卷积提取物体的视觉细节信息,而且可以通过高层次网络中感知域较大的空洞卷积获取物体的局部上下文信息;第三,为ResNet-101网络每层中的空洞卷积组设置顺序递增的稀疏采样率(方法3),即各层的结构修改为CASPP单元,较前面2种采样率设置方法相比,基于ResNet-101(2, (2, 4, 8), (2, 4, 8, 16), (2, 4_6, 8_4, 8_4, 16_4, 24_4), (4, 8, 16))稀疏采样率设置的模块取得了最优的性能,说明基于CASPP单元的特征提取模块可以有效地避免特征提取过程中有用视觉信息的丢失,从而更加全面地表达物体的视觉特点。
从特征提取模块的稀疏采样率设置学习中可以得到如下结论:第一,如果为模块中所有空洞卷积均设置相同的稀疏采样率(方法1),则随着稀疏采样率由1逐步增大到8,模块的mIoU由77.6%逐步提升到78.9%,说明增大采样率能够显著地增大卷积核的感知域,从而获取更加丰富的局部上下文信息;但是,如果稀疏采样率设置为更大的16或24时,虽然卷积核的感知域进一步增大,但是模块的性能却出现下降,说明在较低层次的ResNet-101网络中,如果稀疏采样率的值设置的过大,即卷积核的感知域设置过大,则会导致无法有效地学习物体的视觉细节信息,从而影响特征表示的质量;第二,仅为ResNet-101网络每层中的空洞卷积组设置相同的稀疏采样率(方法2),而对于不同层中的空洞卷积,若其在较低层次则设置较小的采样率,反之则设置较大的采样率,较第1种采样率设置方法相比,基于ResNet-101(2, (4, 4, 4), (8, 8, 8, 8), (8, 8_6, 8_4, 8_4, 8_4, 8_4), (16, 16, 16))的稀疏采样率设置使得模块的mIoU提升了0.6个百分点,说明该设置下的模块不仅能够利用低层次网络中感知域较小的空洞卷积提取物体的视觉细节信息,而且可以通过高层次网络中感知域较大的空洞卷积获取物体的局部上下文信息;第三,为ResNet-101网络每层中的空洞卷积组设置顺序递增的稀疏采样率(方法3),即各层的结构修改为CASPP单元,较前面2种采样率设置方法相比,基于ResNet-101(2, (2, 4, 8), (2, 4, 8, 16), (2, 4_6, 8_4, 8_4, 16_4, 24_4), (4, 8, 16))稀疏采样率设置的模块取得了最优的性能,说明基于CASPP单元的特征提取模块可以有效地避免特征提取过程中有用视觉信息的丢失,从而更加全面地表达物体的视觉特点。
2.3.5 特征融合模块的消融学习
本文在Cityscapes数据集(不包含扩展数据集)上消融学习3种不同融合方式对LGCAFN的性能影响,如表6所示,Concatenation表示直接级联多尺度局部特征和空间结构化特征后送入6层1×1卷积操作做融合的方式;Element-wise addition表示替换特征融合模块中第2次加权融合为点加融合的方式,即令各方向上的注意力权重相同;Attention mechanism表示所提基于注意力机制的3阶段融合方式。
从消融学习中可以发现:基于注意力机制的3阶段特征融合方式使得LGCAFN取得最优的平均交叉准确率,说明本文特征融合方式不仅能够有效地挖掘多尺度局部特征和空间结构化特征之间存在的复杂非线性关系,而且可以根据2类模态特征之间的相关性自适应地聚合有用信息和屏蔽噪声信息,进而基于低抽象级别的视觉细节信息确保解码还原的综合语义信息的质量。
2.3.6 Cityscapes数据集上的场景解析视觉效果
在图5中,第1列表示输入RGB图像,最后1列表示Ground Truth,第2列表示原始ResNet-101网络的场景解析视觉效果图,第3列表示LGCAFN的场景解析视觉效果图,第4列表示LGCAFN的预测结果与真值之间的误差。从场景解析视觉效果图中可以发现如下2点:1)较ResNet-101网络相比,LGCAFN的场景解析结果更为接近Ground Truth,LGCAFN不仅能够更加清晰地分割物体轮廓,而且可以更加准确地标记语义类别,从而再次证明LGCAFN的优势;2)LGCAFN不仅能够有效地解析尺寸较小的物体(例如:杆、信号灯和交通标识,黑色实线方框标记),而且可以准确地区分易混淆的语义类别(例如:行人和骑手、摩托车和自行车、汽车和卡车,黑色虚线方框标记),从而再次证明特征提取模块有效提取尺寸较小物体视觉细节信息的能力、结构化学习模块显式推理全局上下文信息的能力以及特征融合模块自适应聚合上下文信息的能力。
综上所述,LGCAFN在交通场景解析上获取的成功可以归纳为如下3点:1)基于串联空洞空间金字塔池化单元的特征提取模块不仅可以有效地学习更加丰富的局部上下文信息,而且能够避免局部细节信息的丢失,提取的多尺度局部特征能够更加准确地描述物体的视觉外观特点;2)基于8路LSTM分支的结构化学习模块能够显式地学习物体邻近8个不同场景区域的全局上下文信息,推理生成的空间结构化特征可以更加准确地描述物体所处全局场景的结构化特性;3)基于注意力机制的3阶段特征融合模块能够有效地根据2类模态特征间的相关性自适应地聚合有用上下文信息和屏蔽噪声上下文信息,聚合生成的多模态融合特征能够更加准确地表达物体的综合语义。
3 结语
本文LGCAFN不仅能够有效地学习物体自身的视觉外观信息和所处场景的全局上下文信息,而且可以基于注意力机制自适应地聚合上述2类信息,聚合生成的多模态融合特征能够更加全面而准确地表达物体的综合语义信息。实验结果表明,LGCAFN在Cityscapes标准交通场景数据集上能够准确地解析场景,从而有助于实现车辆自动驾驶、语义SLAM等智能计算机视觉任务。但是,由于像素级标签的制作成本昂贵,因此,后续我们准备研究无监督领域自适应学习方法,从而使得LGCAFN网络架构能够自适应到更加复杂的现实交通场景解析任务中。
[1] MO Y, WU Y, YANG X, et al. Review the state-of-the-art technologies of semantic segmentation based on deep learning [J]. Neurocomputing, 2022, 493: 626-646.
[2] AGIA C, JATAVALLABHULA K M, KHODEIR M, et al. Taskography: Evaluating robot task planning over large 3D scene graphs [C]// Proceedings of the Conference on Robot Learning. New York: PMLR, 2022: 46-58.
[3] CAESAR H, BANKITI V, LANG A H, et al. nuScenes: A multimodal dataset for autonomous driving [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2020: 11621-11631.
[4] YU C, LIU Z, LIU X J, et al. DS-SLAM: A semantic visual SLAM towards dynamic environments [C]// Proceedings of the IEEE Conference on Intelligent Robots and Systems. Piscataway: IEEE, 2018: 1168-1174.
[5] LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2015: 3431-3440.
[6] NGUYEN K, FOOKES C, SRIDHARAN S. Context from within: Hierarchical context modeling for semantic segmentation [J]. Pattern Recognition, 2020, 105: 107358.
[7] ZHANG R, YANG W, PENG Z, et al. Progressively diffused networks for semantic visual parsing [J]. Pattern Recognition, 2019, 90: 78-86.
[8] ZHAO H, SHI J, QI X, et al. Pyramid scene parsing network [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 2881-2890.
[9] YANG M, YU K, ZHANG C, et al. DenseASPP for semantic segmentation in street scenes [C]// Proceedings of the 2018 IEEE conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 3684-3692.
[10] CHEN L C, ZHU Y, PAPANDREOU G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation [C]// Proceedings of the European Conference on Computer Vision. Cham: Springer, 2018: 801-818.
[11] TAO A, SAPRA K, CATANZARO B. Hierarchical multi-scale attention for semantic segmentation [EB/OL].[2020-05-21]. http://arxiv.org/pdf/2005.10821.pdf.
[12] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C] Advances in Neural Information Processing Systems. San Francisco: Curran Associates, Inc, 2017: 30.
[13] FU J, LIU J, TIAN H, et al. Dual attention network for scene segmentation [C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 3146-3154.
[14] YUAN Y, CHEN X, WANG J. Object-contextual representations for semantic segmentation [C]// Proceedings of the 2020 European Conference on Computer Vision. Cham: Springer, 2020: 173-190.
[15] LI X, YANG Y, ZHAO Q, et al. Spatial pyramid based graph reasoning for semantic segmentation [C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2020: 8950-8959.
[16] YU C, WANG J, GAO C, et al. Context prior for scene segmentation [C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2020: 12416-12425.
[17] CHEN X, HAN Z, LIU X, et al. Semantic boundary enhancement and position attention network with long-range dependency for semantic segmentation [J]. Applied Soft Computing, 2021, 109: 107511.
[18] DING X, SHEN C, CHE Z, et al. Scarf: A semantic constrained attention refinement network for semantic segmentation [C]// Proceedings of the 2021 IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE, 2021: 3002-3011.
[19] ZHANG Y, SUN X, DONG J, et al. GPNet: Gated pyramid network for semantic segmentation [J]. Pattern Recognition, 2021, 115: 107940.
[20] HUANG Y, KANG D, JIA W, et al. Channelized axial attention-Considering channel relation within spatial attention for semantic segmentation [C] AAAI Conference on Artificial Intelligence. Menlo Park, CA: AAAI Press, 2022.
[21] LU B, HU Q, WANG Y, et al. RCANet: Row-column attention network for semantic segmentation [C]// IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway: IEEE, 2022: 2604-2608.
[22] ZHOU Q, WU X, ZHANG S, et al. Contextual ensemble network for semantic segmentation [J]. Pattern Recognition, 2022, 122: 108290.
[23] HUANG Y, KANG D, CHEN L, et al. CAR: Class-aware regularizations for semantic segmentation [EB/OL].[2022-03-14]. http://arxiv.org/pdf/2203.07160.pdf.
[24] 杨贞, 彭小宝, 朱强强, 等. 基于Deeplab V3 Plus的自适应注意力机制图像分割算法. 计算机应用[J], 2022, 42(1): 230-238. (YANG Z, PENG X B, ZHU Q Q, et al. Image segmentation algorithm with adaptive attention mechanism based on Deeplab V3 Plus. Journal of Computer Applications [J], 2022, 42(1): 230-238.)
[25] 余娜, 刘彦, 魏雄炬, 等. 基于注意力机制和金字塔融合的RGB-D室内场景语义分割[J]. 计算机应用, 2022, 42(3): 844-853. (YU N, LIU Y, WEI X J, et al. Semantic segmentation of RGB-D indoor scenes based on attention mechanism and pyramid fusion [J]. Journal of Computer Applications, 2022, 42(3): 844-853.)
[26] 段立娟, 孙启超, 乔元华, 等. 基于注意力感知和语义感知的RGB-D室内图像语义分割算法[J]. 计算机学报, 2021, 44(2): 275-291. (DUAN L J, SUN Q C, QIAO Y H, et al. Attention-aware and semantic-aware network for RGB-D indoor semantic segmentation [J]. Chinese Journal of Computers, 2021, 44(2): 275-291.)
[27] 吴绿, 张馨月, 唐茉, 等. Focus+Context语义表征的场景图像分割[J]. 电子学报, 2021, 49(3): 596-604. (WU L, ZHANG X Y, TANG M, et al. Focus+Context Semantic Representation in Scene Segmentation [J]. Acta Electronica Sinica, 2021, 49(3): 596-604.)
[28] 黄庭鸿, 聂卓赟, 王庆国, 等. 基于区块自适应特征融合的图像实时语义分割[J]. 自动化学报, 2021, 47(5): 1137-1148. (HUANG T H, NIE Z Y, WANG Q G, et al. Real-time image semantic segmentation based on block adaptive feature fusion [J]. Acta Automatica Sinica, 2021, 47(5): 1137-1148.)
[29] ZHU L, JI D, ZHU S, et al. Learning statistical texture for semantic segmentation [C]// Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2021: 12537-12546.
[30] CHEN L C, WANG H, QIAO S. Scaling wide residual networks for panoptic segmentation [EB/OL]. [2021-02-08]. http://arxiv.org/pdf/2011.11675.pdf.
[31] BORSE S, WANG Y, ZHANG Y, et al. Inverseform: A loss function for structured boundary-aware segmentation [C]// Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2021: 5901-5911.
[32] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 770-778.
[33] CORDTS M, OMRAN M, RAMOS S, et al. The cityscapes dataset for semantic urban scene understanding [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 3213-3223.
[34] ABADI M, AGARWAL A, BARHAM P, et al. Tensorflow: Large-scale machine learning on heterogeneous distributed systems [EB/OL].[2016-03-16]. http://arxiv.org/pdf/1603.04467.pdf.
[35] LECUN Y, BOTTOU L, ORR G B, et al. Efficient backprop [M]. Neural networks: Tricks of the trade. Cham: Springer, 1998: 9-50.
[36] ZINKEVICH M, WEIMER M, Li L, et al. Parallelized stochastic gradient descent [C]// Advances in Neural Information Processing Systems. San Francisco: Curran Associates, Inc, 2010: 23.
[37] SUN K, XIAO B, LIU D, et al. Deep high-resolution representation learning for human pose estimation[C]/1 Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: 1EEE, 2019: 5693-5703.