Page 485 - 《软件学报》2025年第9期

P. 485

4396 软件学报 2025 年第 36 卷第 9 期

方法 1 和方法 2 分别测试了所提出的基于 VAN 的复合特征提取模块和结合特征注意力的风格融合模块的
有效性. 从表 2 中可以看到, 除了方法 2 在 O&C&M to I 协议上得到的结果外, 两个模型都明显改善了基准方法在
基准数据集上的性能. 这验证了本文的论点, 高质量的特征提取骨干网络和良好的特征融合模块是成功解决人脸
活体检测任务的关键. 基于 VAN 的复合特征提取模块能够有效提取图像局部特征的同时也能有效地捕捉远距离
依赖性和适应性, 从而加强对人脸图像的语义信息和物理属性特征的提取. 使用结合特征注意力的风格融合模块
替换 AdaIN 融合方法, 有效地避免了单侧样本特征缺失的问题. 然而, 方法 2 在 O&C&M to I 上的表现不如基线
方法, 分析原因为在样本分布差异大的数据集中, 使用 DepthNet 提取的人脸特征信息不够丰富. 为了验证这一猜
想, 本文在方法 3 中同时使用了 VAN 特征提取模块和风格融合模块. 可以看到, 这个模型的性能得到了进一步的
提高, 优于方法 1 和方法 2 中的模型. 同时也验证了内容特征与风格特征的充分融合可以进一步提升性能.

表 2 OULU-NPU、CASIA-FASD、Replay-Attack 和 MSU-MFSD 上的消融实验结果 (%)

组合评估结果 (HTER)
方法
VAN特征提取模块风格融合模块新型对比策略 O&C&I to M O&M&I to C O&C&M to I I&C&M to O
0 －－－ 10.42 16.47 14.00 19.51
1 √ －－ 9.58 15.74 12.75 18.92
2 － √ － 9.29 13.52 14.87 18.68
3 √ √ － 9.17 12.41 11.00 14.41
4 －－ √ 10.83 15.56 11.75 18.85
5 － √ √ 9.10 13.39 11.27 15.29
6 √ － √ 9.87 12.41 10.45 12.10
7 √ √ √ 6.67 10.56 8.21 10.58

为验证本文所提基于孪生映射的对比学习的有效性, 本节实验中首先简单地使用孪生映射模块和损失函数 B
替换基线方法中的原始的损失函数 A, 从而得到了方法 4. 然而, 这只小幅度提升了 O&M&I to C、O&C&M to I 和
I&C&M to O 上的性能. 该现象的主要原因是模型需要充分地融合丰富的内容特征的风格特征以更好地判别真伪
人脸. 方法 5 和方法 6 则将新型对比策略分别于 VAN 特征提取模块和风格融合模块相组合, 可以看出融合使用的
效果更好, 由此可以看出模块之间的具有很好的适配性. 当将 3 个改进组合作为本文所提方法时, 与方法 4 相比, 方
法 7 在 4 种协议上的 HTER 分别降低了 4.16%、5.00%、3.54% 和 8.27%, 模型性能提升明显. 值得注意的是, 在
O&C&I to M 协议上, 方法 4 与方法 6 相对于基线和方法 1 的表现有所下降. 这种下降主要归因于新型对比学习策
略虽然优化了模型对样本信息的学习方式, 但基线方法 AdaIN 融合模块无法平衡内容特征与风格特性, 导致对比
学习难以有效抑制风格特征的影响. 该问题在风格单一的 MSU-MFSD 数据集上的测试表现尤为显著, 因此设计一
种损失函数平滑的学习机制反而会导致模型性能受到抑制. 针对于此, 本文所提出的风格融合模块可通过无损的融
合方式有效解决这一问题, 使得模型在该协议上的整体性能显著提升, 方法 5 和方法 7 的结果也证实了其可靠性.
为更清晰展示不同损失函数的收敛效果, 本文绘制了方法 3 和方法 7 对应的训练损失收敛曲线. 如后文图 5 所示,
可以看到方法 7 的收敛曲线的梯度波动更小, 从而也直观地验证了模型使用损失函数 B 后整体的稳定性更强.

3.4 对比实验
为了整体评估本文模型的性能, 本节在 3 种跨域评估策略上与其他主流方法进行对比实验. 首先, 本节采用
第 1 种评估策略, 选择 3 个数据集进行训练, 其余的一个用于测试, 实验结果如表 3 和表 4 所示. 从中可以看到, 除
了在 O&C&I to M 协议的 AUC 指标和 O&M&I to C 协议的 HTER 指标上, 本文方法稍逊于其他方法, 在策略 1 中
的其余子协议上本文方法都取得了最优. 以往的人脸活体检测方法如 LBP-TOP [28] 、Color Texture [29] 和 Auxiliary [3]
等, 都专注于从多个源域学习特征, 而这些特征往往只适合于源域中的数据. 相比之下, 本文所提出的基于视觉注
意力和域特征融合的方法充分地利用了多源域特征之间的关系, 并学习它们之间的通用特征表达和真伪高级语义
信息. 本文方法在训练集和测试集中的数据分布有很大的差异时, 仍能保持稳定的检测性能. 相较于基于域泛化技
[8]
术的方法中表现良好的 SSDG-R [20] 和 SSAN-M 等, 本文方法仍具有一定的优势. 本文设计的特征提取与融合网络

480 481 482 483 484 485 486 487 488 489 490