Page 476 - 《软件学报》2025年第12期
P. 476

陈亚当 等: 基于差异化特征提取的交叉半监督语义分割网络                                                    5857


                  2.1.3    细节引导模块
                    在边界调和模块中, 边界信息被用于调和语义信息和细节纹理信息和合成. 因此本文引入了边缘形状分支来
                 提取自然图像的边界信息. 神经网络的中低层拥有丰富的边缘信息, 因此边缘形状分支提取来自                               1/8  下采样的特
                 征图, 通过端到端的学习从图像数据中学习到最优的边缘特征. 本文设计了通过对真实标签和伪标签进行                                  Canny
                 边缘检测得到边缘标签作为监督信号, 促使边缘形状分支仅提取物体的边缘信息, 而不对物体内部的其他细节边
                 缘信息关注.
                    由于神经网络中卷积操作的平滑效应可能导致边界信息的精度下降, 而细节纹理信息通常包含更为准确的边
                 界信息. 因此, 本文引入了边缘信息的空间注意力机制                [47] , 以将细节纹理信息  − →                     − →
                                                                                                    v e  中,
                                                                            v t  逐像素融合到边缘形状信息
                 从而生成更具有空间区域代表性的边缘特征               (如图  5  所示). 这种融合方式可以用以下方式表示:

                                                   −−→           − → −→
                                                   v out = Sigmoid(Att)(v e + v t )                   (3)
                                           v t  表示细节纹理分支向量, Att 表示空间注意力图对应像素权重, Sigmoid
                     v e  表示边缘形状分支向量,
                 其中,   − →                − →                                                      函数保
                 证了注意力权重在       0–1  之间.

                                                                         M  标量乘法   Add  逐元素加法

                                                                            低置信度       中置信度
                            f t
                                             Add
                                                                                       高置信度

                                                       注意力图
                                                空    0.9 0.8 0.8 0.6
                                                间
                            f e                      0.9   0.8
                                                注                     M
                                                意    0.9 0.9  0.7
                                                力       0.7
                                                     图 5 细节引导模块

                  2.2   交叉融合伪标签
                    现实图像往往具有很强的空间相关性, 相似的语义类别通常会在空间上聚集, 图像中的邻近像素之间的语义
                 类别一般也是相似的. 这意味着邻近像素表征之间存在较高的正相关性, 且这种正相关性会随着像素之间的距离
                 变近而增强.
                                                                                                 − →
                                                                                                 v i,j , 类别
                    借用自然图像的这种性质, 通过空间上聚集上邻近像素来改善伪标签的生成. 定义给定像素向量为
                         − →                             − →    − →
                 预测为   p c ( v ), 邻域像素向量及类别预测被表示为        v k,l  和  p c ( v ), 计算两个类别同属于一个类别  c 的联合修正概
                          i, j                                   k,l
                 率为:

                                                         − →
                                                  − →
                                                                      − →
                                                                − →
                                                                           − →
                                             − →
                                            ˜ p c ( v ∪ v ) = p c ( v )+ p c ( v )− p c ( v ∩ v )     (4)
                                               i,j  k,l   i,j    k,l    i, j  k,l
                                                          − →
                                                      − →
                          − →  − →                  p c ( v i,j ∩ v k,l ) 可以被表述为公式  (5), 但是图像具有强相关性, 且这种
                    在像素   v i,j  和   v k,l  相互独立时, 联合概率
                 相关性随着像素的距离变近而增强, 因此简单的假定所有像素独立并不能有理想效果.

                                                                     − →
                                                               − →
                                                   − →
                                                       − →
                                                 p c ( v i,j ∩ v k,l ) = p c ( v i,j )· p c ( v k,l )  (5)

                                                 − →
                                                                   − → −→
                                                             − →
                                                      − →
                                               p c ( v i,j ∩ v k,l ) = p c ( v i,j )· p c ( v k,l | v i,j )  (6)
                                                                                              v i.j  属于类别
                    在公式   (6) 中, 本文计算了在像素存在正相关时的真实联合概率, 由于邻近像素表现出正相关,                         − →
                        − →                       − → −→     − →
                 c 会增加   v k,l  也属于类别  c 的概率, 这时  p c ( v k,l | v i,j ) > p c ( v k,l ), 因此真实修正联合概率公式  (4) 存在一个修正概率
                 上限:
   471   472   473   474   475   476   477   478   479   480   481