Page 332 - 《软件学报》2020年第11期

P. 332

李阳等:基于对象位置线索的弱监督图像语义分割方法 3647

其中,w 1 ,γ α ,γ β ,w 2 ,γ δ 为模型参数.根据 dense CRF 参数推理方法 [48] ,w 1 ,w 2 ,γ α ,γ β ,γ δ 通过网格搜索技术(grid search)优
化(实验中,w 1 =w 2 =1,γ α =30,γ β =10,γ δ =3).k(f n ,f n′ )的第 1 个核函数依赖于像素位置(表示为 S n )及颜色特征(表示为
T n ),而第 2 个核函数仅依赖于像素的位置特征.Krahenbuhl 等人 [48] 提供了上述能量函数(公式(6)))的近似推理.
最后,经过全连接条件随机场模型的优化,分割结果可以更好地匹配对象的轮廓.

3 实验结果及分析

为了验证本文所提方法能够获得更好的分割结果,本节在 PASCAL VOC 数据集上进行了一系列验证和对
比实验.第 3.1 节详细地描述了实验的各种设置.第 3.2 节~第 3.5 节列出本文所提方法的分割结果.
3.1 实验设置
• 数据集
为了验证本文所提方法的有效性,我们采用 PASCAL VOC 2012 [49] 分割数据集合,包括 20 个前景对象类别
和一个背景类别.其原始分割数据集中有 1 464 幅训练图像、1 449 幅验证图像及 1 456 幅测试图像.遵循现有
方法的惯例 [16,22] ,本文拓展了训练数据集 [50] :10 582 幅图像.与其他方法的对比实验分别在验证集及测试集上进
行.本文方法的实验结果均是通过官方 PASCAL VOC 提供的评估服务器获取.
• 评价指标
本文使用语义分割标准度量——平均 IoU(mean intersection over union)来衡量分割效果.每幅图像的 IoU
定义为
GT ∩ PS
IoU = (9)
GT ∪ PS
其中,GT 为图像的真实分割,PS 为图像的预测分割.实验中计算 21 个类别的平均 IoU 值.
• 网络结构
(1) 显著图网络
本文使用 WSS [27] 与 DHSN [28] 作为显著图检测器,并通过逐次擦除法来发现图像中存在的多个对象.这两个
[4]
模型将 VGG-16 作为基础网络结构.在逐次擦除法中,本文设定显著得分大于 0.7 的像素区域被擦除.
(2) 注意力图获取网络与分割网络
[9]
本文基于 VGG_16_LargeFOV(large field of view) 模型构造注意力图获取网络与分割网络.为了获取注意
力图,本文在分割网络的最后卷积层外追加了一个卷积层(输出为 20 个通道,卷积核大小为 1×1×20).除最后两个
[3]
卷积层外,我们还采用在 ImageNet 数据集上预训练好的参数来初始化模型.最后两层参数由正太分布
(N(0,0.01))随机初始化.输入图像被随机切分为 321×321 尺度,最后网络输出 21 个 41×41 尺度的分割图.
• 网络训练
为了获取注意力图,本文首先用 PASCAL VOC 2012 训练集,基于分类损失函数(公式(2))与 mini-batch 随机
梯度下降(SGD)算法训练上述网络.初始学习率为 0.001,每经过 2 000 次迭代,学习率降低 10 倍.此外,设定
dropout 层的 drop_rate=0.5,动量 momentum=0.9,权值衰减率 0.0005.对于分类任务,随机梯度下降算法需要迭代
10K 次,并且每次迭代输入网络中的图像个数为 30.模型训练完成之后,根据第 2.2 节所描述的方法获取每幅图
像的注意力图,并通过算法 2 生成伪像素标注.之后,利用伪像素标注来训练分割网络,其训练的学习率、动量及
权值衰减等设定与分类任务相同.分割网络的训练迭代次数为 8 000 次.
用于获取注意力图及完成分割任务的网络训练时间分别约为 16h 和 10h.实验的配置为 12GB 显存的
NVIDIA GeForce TITIAN X.所有的实验均在深度学习 caffe 框架下完成.

3.2 注意力图及伪像素标注的有效性
正如第 2.2 节所述,本文可以产生具有类别信息的注意力图,而这些注意力图可以有效地提供图像中不同
语义类别对象的位置信息.为了对比本文方法与 DCSM [45] 方法的注意力图的准确性,本实验设定 4 组阈值 th=

327 328 329 330 331 332 333 334 335 336 337