Page 476 - 《软件学报》2025年第12期

P. 476

陈亚当等: 基于差异化特征提取的交叉半监督语义分割网络 5857

2.1.3 细节引导模块
在边界调和模块中, 边界信息被用于调和语义信息和细节纹理信息和合成. 因此本文引入了边缘形状分支来
提取自然图像的边界信息. 神经网络的中低层拥有丰富的边缘信息, 因此边缘形状分支提取来自 1/8 下采样的特
征图, 通过端到端的学习从图像数据中学习到最优的边缘特征. 本文设计了通过对真实标签和伪标签进行 Canny
边缘检测得到边缘标签作为监督信号, 促使边缘形状分支仅提取物体的边缘信息, 而不对物体内部的其他细节边
缘信息关注.
由于神经网络中卷积操作的平滑效应可能导致边界信息的精度下降, 而细节纹理信息通常包含更为准确的边
界信息. 因此, 本文引入了边缘信息的空间注意力机制 [47] , 以将细节纹理信息 − → − →
v e 中,
v t 逐像素融合到边缘形状信息
从而生成更具有空间区域代表性的边缘特征 (如图 5 所示). 这种融合方式可以用以下方式表示:

−−→ − → −→
v out = Sigmoid(Att)(v e + v t ) (3)
v t 表示细节纹理分支向量, Att 表示空间注意力图对应像素权重, Sigmoid
v e 表示边缘形状分支向量,
其中, − → − → 函数保
证了注意力权重在 0–1 之间.

M 标量乘法 Add 逐元素加法

低置信度中置信度
f t
Add
高置信度

注意力图
空 0.9 0.8 0.8 0.6
间
f e 0.9 0.8
注 M
意 0.9 0.9 0.7
力 0.7
图 5 细节引导模块

2.2 交叉融合伪标签
现实图像往往具有很强的空间相关性, 相似的语义类别通常会在空间上聚集, 图像中的邻近像素之间的语义
类别一般也是相似的. 这意味着邻近像素表征之间存在较高的正相关性, 且这种正相关性会随着像素之间的距离
变近而增强.
− →
v i,j , 类别
借用自然图像的这种性质, 通过空间上聚集上邻近像素来改善伪标签的生成. 定义给定像素向量为
− → − → − →
预测为 p c ( v ), 邻域像素向量及类别预测被表示为 v k,l 和 p c ( v ), 计算两个类别同属于一个类别 c 的联合修正概
i, j k,l
率为:

− →
− →
− →
− →
− →
− →
˜ p c ( v ∪ v ) = p c ( v )+ p c ( v )− p c ( v ∩ v ) (4)
i,j k,l i,j k,l i, j k,l
− →
− →
− → − → p c ( v i,j ∩ v k,l ) 可以被表述为公式 (5), 但是图像具有强相关性, 且这种
在像素 v i,j 和 v k,l 相互独立时, 联合概率
相关性随着像素的距离变近而增强, 因此简单的假定所有像素独立并不能有理想效果.

− →
− →
− →
− →
p c ( v i,j ∩ v k,l ) = p c ( v i,j )· p c ( v k,l ) (5)

− →
− → −→
− →
− →
p c ( v i,j ∩ v k,l ) = p c ( v i,j )· p c ( v k,l | v i,j ) (6)
v i.j 属于类别
在公式 (6) 中, 本文计算了在像素存在正相关时的真实联合概率, 由于邻近像素表现出正相关, − →
− → − → −→ − →
c 会增加 v k,l 也属于类别 c 的概率, 这时 p c ( v k,l | v i,j ) > p c ( v k,l ), 因此真实修正联合概率公式 (4) 存在一个修正概率
上限:

471 472 473 474 475 476 477 478 479 480 481