Page 480 - 《软件学报》2025年第9期
P. 480

朱建秋 等: 视觉注意力和域特征融合的人脸活体检测方法                                                     4391


                 息和以及一定量的数据域风格信息. 本文使用基于                CNN  的风格特征提取模块提取风格特征并以正序和乱序两种
                 方式与内容特征进行融合, 分别构成了完整样本特征以及用于对比训练的乱序辅助特征. 接着, 完整特征表示用于
                 样本的分类任务以及与乱序辅助特征协同以对比学习的方式来强化与活体相关的特征信息, 减缓域间风格分歧导
                 致的泛化性下降. 最后, 将上述任务中的对抗训练损失、分类损失和对比损失作为联合损失函数对模型进行监督
                 学习. 接下来, 本文将详细描述所提方法的            3  个创新, 包括基于   VAN  的复合特征提取模块、风格特征融合与孪生
                 映射模块以及面向跨域检测的新型对比损失函数.

                                          内容特征生成器
                                                                                              特
                                                                              风格特             征
                                                                              征融合                  对比损失
                 真实人脸                                                                         映
                                           VAN 内容特      VAN 内容特                               射
                                           征提取块         征提取块        乱序风格特征       乱序辅助特征
                           数据域 1
                 欺诈人脸                                                           DAT    DDR    对抗损失

                                                                     内容特征
                                           风格特征生成器
                 真实人脸
                                                                              风格特            分
                                           CNN 风格特      CNN 风格特               征融合            类    分类损失
                            数据域 N          征提取块         征提取块                                 器
                                                                    顺序风格特征        完整样本特征
                 欺诈人脸      跨域数据集
                                    图 1 基于视觉注意力和域特征融合的人脸活体检测方法框架

                 2.1   基于  VAN  的复合特征提取模块
                    不同数据域中的样本均包含人脸区域, 且拥有相似的语义特征空间. 但受数据采集设备、场景和光照等差异
                 的影响, 数据域之间的风格差异相差较大. 另外, 无论是真实人脸还是欺诈人脸, 形态和所占整幅图像的空间往往
                 是接近的. 这一系列因素使得在跨域数据中, 相比域间差异, 样本的真伪语义特征差异极小, 进而导致人脸活体检
                 测模型无法进行有效的欺诈检测. 为了增强模型对真伪语义特征的捕获能力, 本文采用生成对抗学习的方式, 设计
                 了如图   2  所示的基于  VAN  的内容特征生成器和基于         CNN  的风格特征生成器, 分别提取样本的两项特征.





                         输入              1×1 卷积       1×1 卷积          1×1 卷积  3×3 卷积  1×1 卷积  输出
                         特征         归一化      GELU  LAK            归一化          GELU          特征
                                                                                          ×L
                                                                           内容特征生成器



                                      DW 卷积  DW-D 卷积  1×1 卷积  输入         3×3 卷积  归一化  ReLU   输出
                                                              特征
                                                                                             特征

                                                                            风格特征生成器
                                            图 2 基于   VAN  的人脸特征提取骨干网络

                    本文采用基于      VAN  的骨干网络来提取内容特征, VAN         使用大核卷积可以捕捉长距离依赖同时, 兼顾普通卷
                 积提取局部特征的能力. 此外, 为降低大核卷积               (large kernel, LAK) 参数量过大的问题, VAN   将其分解成深度
   475   476   477   478   479   480   481   482   483   484   485