Page 344 - 《软件学报》2025年第5期
P. 344
2244 软件学报 2025 年第 36 卷第 5 期
主动声感知活体检测通过主动发射探测信号, 并接收认证实体反射的声信号特征鉴别认证对象是否为活体.
主要是对声纹认证和人脸认证进行活体检测. Zhang 等人 [18] 鉴于人体发声与扬声器发声机理具有显著差异的基本
事实, 提出了主动活体检测方案 VoiceGesture. 它通过测量反射声信号的多普勒频移来识别认证实体的发声姿势,
从而区分真实用户和重放设备. 之后, Zhang 等人 [119] 对 VoiceGesture 进一步优化, 使其具备文本无关的活体检测
能力. VibLive [120] 利用 IoT 设备内置扬声器和麦克风对, 主动感应声音的骨传导振动, 并与空气传导的声音进行特
征对比, 从而区分真实用户和重放设备. Echoface [121] 利用声感知技术为人脸认证提供了一种活体检测方案. 它通过
[122]
主动声学感应来区分面部的不均匀立体结构和平坦的伪造介质, 从而区分真实人脸和静态图片或视频. FaceLip
根据随机挑战动态生成声信号来捕获和分析说话人的嘴唇运动模式, 并消除环境中的噪声信号来实现远距离的人
脸认证活体检测. Echo-FAS [123] 提出一种双分支的架构, 巧妙融合了全局和局部频率特征, 以准确捕捉面部活性, 并
且可以方便地与基于 RGB 的 FAS 系统结合, 以执行更加安全强大的面部反欺骗. 大多数主动声感知认证活体检
测方案将发射的声信号限定在次超声波频段, 能够避免环境噪声的干扰, 并且用户难以察觉, 不影响用户体验, 但
是认证距离和方向也有比较严格的限制. 表 6 总结和对比了各种基于声感知的认证活性检测方案.
表 6 基于声感知的认证活体检测方案对比与总结
分类 特征 技术 抵抗攻击类型 频带 文献 误判率 (%)
信道模式噪声 勒让德多项式系数 重放攻击 可听频带 [110] 2.8
口腔发声位置 TDOA 重放攻击、替换攻击 可听频带 [111] 1
人声系统、手机振动 STFT、频谱减法 重放攻击 17–20 kHz [112] <7
气爆音 GFCC、STFT 重放攻击、模仿攻击 0–170 Hz [17,113] 7.1
被动
口腔气流声压 HMM 重放攻击、合成攻击 可听频带 [114] 2.08
声能场 STFT、GMM 重放攻击、合成攻击 可听频带 [115] 0.85
频谱特征 STFT、LPCC 重放攻击、合成攻击 0–15 kHz [116] 8.7
麦克风阵列 LPCC、STFT 重放攻击、对抗样本攻击 0–5 kHz [117,118] <9
口内发声姿势 STFT、DWT 重放攻击、模仿攻击 20 kHz [18,119] 1
声音骨传导 LPC、RSS 重放攻击、合成攻击 0–3 kHz [120] <3
主动 人脸3D形状 DTW、汉明窗 媒体伪造攻击 12–21 kHz [121] 4
唇部运动 STFT、LSTM-CNN 媒体伪造攻击、投影攻击、对抗样本攻击 18–21 kHz [122] 5
人脸3D形状 FMCW、STFT 呈现攻击 12–21 kHz [123] 4.34
综合第 4.1–4.3 节发现, 现有基于声感知的安全身份认证方案主要对小数据集用户进行认证, 感知效果依赖用
户的距离和方向, 大多需要用户进行初始化配置和适应性学习. 如何在大数据集用户上实现高准确率身份认证, 提
高用户认证灵活性, 减少初始化配置和学习成本, 提高用户体验, 需要进一步深入研究.
5 研究挑战与展望
基于声感知的移动终端身份认证研究已经引起科研人员的广泛关注, 成本低廉且功能强大, 具有高度易得性
和广泛的应用范围, 但是仍然存在一些研究限制和未来研究的开放问题. 本节结合当前研究的困难和挑战, 给出了
衡量身份认证系统性能的两大指标 (安全性和实用性), 对未来的研究方向进行了展望.
5.1 研究挑战
目前, 基于声感知的移动终端身份认证研究面临的挑战主要集中在以下几个方面.
第一, 面对各种攻击实现认证实体与凭据间的可信绑定. 基于秘密知识的身份认证利用仅在合法用户和身份
认证系统之间共享的知识凭据 (例如 PIN 码、手势口令等) 鉴定用户身份. 然而用户设置的秘密知识具有一定的
倾向性, 容易受到智能口令猜测攻击. 因此, 如何利用声感知技术增大真实秘密空间, 构建强制执行高安全强度秘
密知识输入方案, 权衡安全性和实用性需要进一步研究. 此外, 知识凭据容易通过肩窥攻击和各种侧信道信息推断
出来. 如何利用声感知技术提取人眼无法观测、难以通过侧信道推断的隐性认证因子需要深入研究. 基于生物特