Page 478 - 《软件学报》2025年第9期

P. 478

朱建秋等: 视觉注意力和域特征融合的人脸活体检测方法 4389

放攻击和 3D 面具攻击这 3 种. 随着活体攻击技术的不断更迭, 场景多元化趋势明显, 亟需提升检测算法的鲁棒性
和泛化能力以对抗新型欺诈手段. 当前端到端学习方法虽取得一定成果, 但在面对未知环境和未曾训练过的攻击
类型, 模型的反欺诈检测性能仍显不足. 针对此问题, 研究人员依仗先进的特征提取骨干网络和更全面的域泛化技
术来提升人脸活体检测算法的泛化性, 以此来缓解上述问题 [1] .
具体来说, 在使用不同特征提取骨干网络方面, 许多工作都是以 ResNet 作为特征提取网络, 基于人脸深度图
[2]
[3]
辅助监督策略的方法更多使用 DepthNet 对人脸特征进行提取. 此外, Deb 等人 [4] 提出使用 FCN 从人脸图像中学
[6]
习局部判别性特征; 在 Huang 等人 [5] 的工作中, 采用 ViT 作为骨干网络来提升模型的综合性能. 上述网络框架在
特征的提取和精炼都有了较大的改进. 在设计域泛化技术方面, 域泛化可以使模型直接从多个源域学习到通用的
特征表达, 且不需要使用目标域中的数据, 这对于模型的实际部署更加实用. 基于域泛化的人脸活体检测算法假设
在多个源域和未知的目标域之间存在通用的人脸特征表达, 从源域训练得到的模型可以很好地泛化到新的目标域
上. Shao 等人 [7] 通过提出一种多重对抗判别的域泛化模型首次将域泛化技术引入到人脸活体检测领域. 在此基础
上, Wang 等人 [8] 提出了一种特征重组的域泛化人脸活体检测算法, 该研究基于人脸图像内容特征和风格特征在统
计特性上的差异, 通过使用一个双流网络提取图像的内容特征和风格特征, 并对不同的内容特征和风格特征进行
组合, 在重组后的特征空间上使用对比学习的策略, 以此获取更具泛化性的特征表达.
以上方法基于各样的特征提取骨干网络和域泛化技术在处理人脸活体检测任务上均取得了较好的实验结果,
但仍有不足. 首先, 基于 CNN 的各样骨干网络, 主要利用卷积层对图像进行特征提取. 尽管多层卷积网络可以有效
提取图像的局部特征, 将复杂的像素信息映射到易于区分的特征空间中, 但由于缺乏对图像中长距离像素间的关
系特征的提取, 导致丢失了图像内部的全局关联信息以及降低了对图像间整体结构异同的判断能力. 其次, Wang
等人 [8] 在融合样本的过程中, 双边样本特征有着同等重要的作用, 但该方法会侧重于某一边的样本特征从而导致
另一部分信息的丢失, 造成融合后的特征表达能力不足, 模型依旧缺乏跨域反欺诈检测的能力. 此外, 上述方法为
了增强与活体相关的信息并抑制特定域的风格信息, 使用多种域泛化策略来减缓模型受域间分歧的影响. 不过其
使用的对比损失函数由于不够平稳, 在进行多任务联合学习的过程中均易于导致模型震荡, 亟待调整.
为了解决上述问题, 本文设计了一种新型基于视觉注意力和域特征融合的双流人脸活体检测模型. 具体来说,
本文首先构建了基于视觉注意力网络 (visual attention network, VAN) 的人脸特征提取骨干网络来提取样本的内
[9]
容特征. VAN 采用大核注意力模块 (large-kernel attention, LKA), 结合了卷积网络和自注意力模块的优点, 可同时
提取图像近距离的局部特征和远距离特征间的依赖, 以更低算力和时间消耗中提取更为全面的人脸特征信息. 接
着, 本文设计了一种新型的风格迁移网络来融合两个分支提取的特征. 需注意, 本文将提取的风格特征处理为顺序
和乱序两种, 并分别与顺序的内容特征相融合得到两种融合特征, 分别为完整样本特征和乱序辅助特征. 为了增强
模型的泛化性, 本文在融合过程中, 对特征堆叠的高响应区域进行加权, 以降低所提特征对数据域之间差异的敏感
性. 此外, 本文还通过对内容特征进行域对抗训练 (domain adversarial training, DAT) [10] 以减少域间分歧. 最后, 本文
将两种融合特征一同送入基于孪生网络的特征映射模块中, 并对以往的对比损失函数也做进一步的修正, 使模型
在多任务联合学习的过程中, 规避了训练易振荡的问题. 综上, 本文贡献如下.
(1) 提出基于 VAN 的内容特征提取模块, 结合卷积网络和自注意力模块的优点, 增强了模型对内容特征的提
取能力.
(2) 构建新型的风格迁移融合模块, 以有效且无损地融合活体内容特征和风格特征, 提高了融合特征的表示
能力.
(3) 设计基于孪生网络的特征映射策略并对以往的对比损失函数也做进一步的修正, 以规避训练易振荡的问
题, 同时采用域对抗训练强化内容特征的活体信息并抑制域间分歧.

1 相关工作

早期基于深度学习的人脸活体检测研究将该问题视为一个简单的二分类任务, 通过二值监督训练出一个端到

473 474 475 476 477 478 479 480 481 482 483