Page 480 - 《软件学报》2025年第9期
P. 480
朱建秋 等: 视觉注意力和域特征融合的人脸活体检测方法 4391
息和以及一定量的数据域风格信息. 本文使用基于 CNN 的风格特征提取模块提取风格特征并以正序和乱序两种
方式与内容特征进行融合, 分别构成了完整样本特征以及用于对比训练的乱序辅助特征. 接着, 完整特征表示用于
样本的分类任务以及与乱序辅助特征协同以对比学习的方式来强化与活体相关的特征信息, 减缓域间风格分歧导
致的泛化性下降. 最后, 将上述任务中的对抗训练损失、分类损失和对比损失作为联合损失函数对模型进行监督
学习. 接下来, 本文将详细描述所提方法的 3 个创新, 包括基于 VAN 的复合特征提取模块、风格特征融合与孪生
映射模块以及面向跨域检测的新型对比损失函数.
内容特征生成器
特
风格特 征
征融合 对比损失
真实人脸 映
VAN 内容特 VAN 内容特 射
征提取块 征提取块 乱序风格特征 乱序辅助特征
数据域 1
欺诈人脸 DAT DDR 对抗损失
内容特征
风格特征生成器
真实人脸
风格特 分
CNN 风格特 CNN 风格特 征融合 类 分类损失
数据域 N 征提取块 征提取块 器
顺序风格特征 完整样本特征
欺诈人脸 跨域数据集
图 1 基于视觉注意力和域特征融合的人脸活体检测方法框架
2.1 基于 VAN 的复合特征提取模块
不同数据域中的样本均包含人脸区域, 且拥有相似的语义特征空间. 但受数据采集设备、场景和光照等差异
的影响, 数据域之间的风格差异相差较大. 另外, 无论是真实人脸还是欺诈人脸, 形态和所占整幅图像的空间往往
是接近的. 这一系列因素使得在跨域数据中, 相比域间差异, 样本的真伪语义特征差异极小, 进而导致人脸活体检
测模型无法进行有效的欺诈检测. 为了增强模型对真伪语义特征的捕获能力, 本文采用生成对抗学习的方式, 设计
了如图 2 所示的基于 VAN 的内容特征生成器和基于 CNN 的风格特征生成器, 分别提取样本的两项特征.
输入 1×1 卷积 1×1 卷积 1×1 卷积 3×3 卷积 1×1 卷积 输出
特征 归一化 GELU LAK 归一化 GELU 特征
×L
内容特征生成器
DW 卷积 DW-D 卷积 1×1 卷积 输入 3×3 卷积 归一化 ReLU 输出
特征
特征
风格特征生成器
图 2 基于 VAN 的人脸特征提取骨干网络
本文采用基于 VAN 的骨干网络来提取内容特征, VAN 使用大核卷积可以捕捉长距离依赖同时, 兼顾普通卷
积提取局部特征的能力. 此外, 为降低大核卷积 (large kernel, LAK) 参数量过大的问题, VAN 将其分解成深度

