Page 479 - 《软件学报》2025年第9期

P. 479

4390 软件学报 2025 年第 36 卷第 9 期

端的模型去判定输入人脸的真假. 2014 年, Yang 等人 [11] 首次将 CNN 引入活体检测任务, 先用 CNN 提取原始图像
的特征, 再送入 SVM 分类器中做分类, 显著提升了人脸活体检测模型的性能. 为了缓解由训练数据不足导致的模
型过拟合问题, Li 等人 [12] 将在 ImageNet 上预训练的 CNN 模型迁移到人脸活体检测任务中. 而为了提升模型提取
样本特征的能力, Feng 等人 [13] 利用多重信息作为 CNN 的输入, 包括基于 Shearlet 特征表示的图像信息和通过光
流表示的脸部/全局动作信息, 将 3 种特征结合起来用 CNN 检测是否为欺诈人脸. 此外, Xu 等人 [14] 增加了对时序
信息的考虑, 在 CNN 中加入长短期记忆单元 (long short term memory, LSTM), 提出了 CNN-LSTM 网络结构, 通
过 LSTM 获取多帧之间的时序动态信息, 从而提高模型的性能. 在丰富的攻击数据下, 基于深度学习的检测算法
可以提取到更全面的人脸特征. 为了让模型学习到更精细的人脸特征, 研究人员对添加辅助监督信息的检测方法
进行了深入探索. 在图片打印和视频回放欺诈方式下的人脸是不包含面部深度信息的, 即深度一致. 而真实人脸是
立体的, 因此面部区域的深度有所不同. 基于上述差异, Atoum 等人 [15] 首次引入人脸深度图的概念, 并提出了双分
支 CNN 的方法, 使用人脸深度图作为辅助监督, 通过将面部的表观信息与人脸深度图信息相结合, 从而能够更好
地区分真实人脸和欺诈人脸. 此外, Liu 等人 [3] 引入远程光电容积描计法 (remote photolethysmography, rPPG) 到人
脸活体检测, 并提出了一种更为复杂的 CNN-RNN 结构, 使用人脸 rPPG 信号和人脸深度信息相结合的方式, 从时
序和空间两个方面对模型进行监督学习. 而 Zhang 等人 [16] 利用特征解耦的思想, 将特征分解为活体特征和与活体
特征无关的内容特征, 只利用活体特征判别真假人脸. 基于以上思想铺垫, Yu 等人 [17] 先提出双边卷积网络 (bilateral
convolutional network, BCN), 利用双边滤波与 CNN 相结合的方式来提取更多人脸的内在材质属性特征. 接着, 他
们还提出一种基于中心差分卷积 (central difference convolution, CDC) [18] 的人脸活体检测算法, 有效增强模型对不
同环境下细粒度特征的表示能力, 取得了优于其他算法的检测性能. 总的来说, 添加辅助监督信息的人脸活体检测
算法的性能有着显著提升, 有效缓解了二值监督下模型易发生过拟合的问题.
尽管基于端到端的深度学习算法可应用于大多数场景, 但在未知数据域和未知攻击类型上的泛化性能仍不够
理想, 在安全性要求较高的实际应用中并不稳定. 基于此, 越来越多的研究人员关注如何提升深度人脸活体检测算
法的泛化能力. 在人脸活体检测中, 考虑到不同数据集中的攻击数据 (或真实人脸数据) 之间存在一定的相关性,
可以利用迁移学习 (transfer learning) 将在已有数据上学习到的知识 (即辨别真伪人脸的方式) 迁移到新的检测任
务或数据中, 以达到提升模型泛化能力的目的. 然而, 往往源域 (source domain) 和目标域 (target domain) 的数据之
间存在着分布偏移, 影响模型的泛化性能. 基于域泛化 (domain generalization, DG) 的方法的提出可有效应对这一
问题. 基于域泛化的算法是假定源域和未知域之间存在泛化统一的特征空间, 即模型经过训练可以从多个源域中
学习到不含域特征或者与域无关的通用特征表示, 使模型在未知的数据域上也能进行较好地适配. 基于域泛化的
人脸活体检测的算法在未知数据域和未知攻击方式上的泛化能力得到一定的提升, 是近年来的研究热点. Shao 等
人 [7] 首次将域泛化的思想引入人脸活体检测领域, 提出了一种多重对抗判别的域泛化模型来学习多个源域共享的
通用特征表达. Wang 等人 [19] 提出了基于特征解耦的跨域人脸活体检测算法, 将特征解耦为与判别真伪人脸有关
的特征以及测试人员的个体特征. Jia 等人 [20] 利用单边对抗学习的域泛化框架, 即训练一个特征生成器, 使其只对
不同源域中的真实样本提取具有泛化性的特征. 随着对比学习 [21,22] 在自/半监督领域的兴起, Zhang 等人 [10] 提出了
基于对比学习的域泛化方法, 该方法不受限于对源域数量的需求, 可以广泛应用于各类域泛化的场景中. 然而, 基
于域泛化的算法学到的通用特征可能会包含于欺诈攻击无关的信息, 例如测试人员的个体特征和传感器噪声等,
从而导致特征的判别性不佳. 因此, 如何提升算法的泛化性仍是人脸活体检测任务中需要深入探索和研究的重要
问题.

2 模型构建

为减小数据源的差异对模型性能的影响, 提高模型在未知攻击方式和未知场景下的检测效果, 本文提出基于
视觉注意力和域特征融合的人脸活体检测模型. 如图 1 所示, 模型整体架构包含内容特征和风格特征两个分支. 其
中, 内容特征主要包含的图像的真伪标签语义信息和全局特性, 本文使用基于 VAN 的内容特征提取块获取相关
特征, 并以域对抗训练来降低模型对数据域层面特征信息的敏感度. 对于风格特征, 其主要侧重样本的浅层纹理信

474 475 476 477 478 479 480 481 482 483 484