Page 343 - 《软件学报》2025年第5期

P. 343

周满等: 基于声感知的移动终端身份认证综述 2243

被动声感知活体检测利用真实用户发射的声信号和扬声器发射的声信号特征之间的区别鉴别认证对象是否
为活体, 主要是对声纹认证进行活体检测. Wang 等人 [110] 提出了基于信道模式噪声的重放攻击检测方法, 该方法基
于真实用户语音与重放语音所经过信道存在差异的事实, 选择提取 Legendre 系数和统计系数共 12 个长期特征来
描述信道指纹, 以此构建重放攻击检测器. Voicelive [111] 通过测量接收到的不同音素到达时间差 (TDoA) 序列的动
态特征来区分真实用户的声音和扬声器发出的声音. 然而该方案要求用户以固定姿势将嘴部靠近智能手机, 对用

户嘴和手机的相对位置要求很严格. Shang 等人 [112] 设计一种鲁棒的声感知活体检测系统软件, 提供了 3 种有效活
体检测方法: 基于频谱的活体检测方法利用重放音频难以刻画嘴部和喉咙部位的频谱差异的事实; 基于运动的活
体检测方法利用内嵌加速度计提取人声系统运动的加速度序列; 第 3 种方法利用内嵌的振动电机在音频录制过程
中随机添加振动效果, 区分真实语音和重放音频. VoicePop [17] 利用用户在靠近麦克风说话时口腔呼气产生的气爆
音鉴别认证对象是否为真实活体, 如图 11 所示, 重放语音由于偷录距离无法非常靠近用户口腔通常不含气爆音.
该工作基于气爆音在低频具有高能量以及持续时间范围为 20–100 ms 的事实, 设计气爆音检测算法来判断语音样
本中是否含有气爆音, 并利用 GFCC 特征来排除环境噪声和硬件噪声导致的错误检测结果, 从而达到区分真实用
户和重放设备的目的. VoicePop+ [113] 对先前的工作进行了优化, 通过在音素水平上定位气爆音, 并结合声压与口腔
气压的一致特性, 进一步提高了判别音频中气爆音的准确率. Wang 等人 [114] 通过构建理论模型描述口腔气流压力
与音素之间的关系, 然后根据模型估算语音中压力信号, 并结合辅助气流传感器捕获的真实压力信号进行一致性
判别, 从而区分真实用户和重放设备. CaField [115] 提出了基于声能场的活体检测方案, 借助人体声源和音频重放语
音存在明显的物理结构差异, 导致它们的声能场在方向性存在可量化差异的基本事实, 通过提取长期平均场纹
(long-time average fieldprint, LTAF) 来刻画满足文本独立条件下的声能场一致性特征, 从而达到区分真实用户和重
放设备的目的. VOID [116] 利用从单声道音频中提取的频谱特征进行快速轻便的语音活体检测, 能够抵御常见的声
纹认证攻击. 但是它没有使用多声道音频空间信息, 仍然容易受到更高级的攻击, 例如调制重放攻击. Li 等人 [117] 提
出了一个针对机器音频攻击的整体化解决方案. 该工作利用智能音频系统上配备的多通道麦克风阵列来获取幅度
和相位等信息, 并通过构建深度学习模型来实现对机器音频攻击的精准检测. ArrayID [118] 提出了一种鲁棒的具有
活体特征的麦克风阵列指纹, 并严格证明了阵列指纹主要与音源有关, 即真实用户与重放设备所反映的阵列指纹
存在差异, 可以用于被动活体检测. 由于真实用户发射的声信号通常在可听到的低频率范围内, 很容易受到周围环
境噪声的干扰, 而且很多工作需要额外的传感器, 对用户嘴部的认证距离和方向有比较严格的限制.

明显气爆音没有气爆音

0 0 0
频率 (Hz) 300 频率 (Hz) 300 −20

−40
600 600
1 2 3 4 5 6 1 2 3 4 5 6
时间 (s) 时间 (s)
(a) 三星 C9 采集的合法用户语音 (b) 三星 C9 采集的扬声器重放语音

明显气爆音没有气爆音
0 0 0
频率 (Hz) 300 频率 (Hz) 300 −20

−40
600 600
1 2 3 4 5 6 7 1 2 3 4 5 6 7
时间 (s) 时间 (s)
(c) 三星 Note4 采集的合法用户语音 (d) 三星 Note4 采集的扬声器重放语音
图 11 基于气爆音的声纹认证活体检测

338 339 340 341 342 343 344 345 346 347 348