Page 340 - 《软件学报》2025年第5期

P. 340

2240 软件学报 2025 年第 36 卷第 5 期

嗅探、正常呼吸和深呼吸中的声学特征 (如伽马通频率倒谱系数 (GFCC)) 用于用户身份认证. 在此基础上,
Chauhan 等人 [79] 利用智能手机、智能手表和树莓派芯片 3 种移动终端进行用户呼吸声认证, 并使用浅层分类器
(如 SVM、GMM、逻辑回归) 和深度学习分类器 (如 LSTM、MLP) 进行分类. 结果表明 LSTM 模型尺寸最小, 认
证时间最短, 并且比其他分类器准确率高. Zhou 等人 [80] 利用来自击键的声音验证用户的合法性, 提取了几种声学
特征 (如声信号的信号强度、梅尔频谱系数 (MFCC)), 并进一步应用 SVM 进行身份验证. SonicPrint [81] 发现不同用
户手指在物体表面滑动产生的摩擦声具有独特性, 而这种独特性取决于手指的表面纹理, 即指纹脊纹, 因此可以将
摩擦声作为指纹特征进行用户身份认证. EarID [82] 和 EarPrint [83] 作为新颖的身份认证方法, 利用低成本嵌入式麦克
风感知通过用户耳道传输的身体声音, 并根据不同用户耳道的唯一性提取出对应的生物特征. Zhou 等人 [84] 和 Das
等人 [85] 首次提出利用智能手机扬声器和麦克风的频率响应的独特性和稳定性为智能手机生成设备指纹. 其中
Zhou 等人 [84] 精心挑选了提取声指纹的音频信号的频率范围和模式, 从而减少非线性效应和环境噪声的影响, 并保
证用户察觉不到信号特征的提取过程. Luo 等人 [86] 为声指纹提出了一个新的特征集, 范围能量差 (BED) 描述符,
用于数字语音记录的来源归属, 证明了声信号的频率响应曲线可以作为一个表征录音设备的稳健指纹. 由于击键
声、呼吸声、摩擦声、耳内发声都在可听到的频率范围内, 很容易受到周围环境噪声的干扰. 而且, 这些研究都是
基于提取的声发射特征, 因此可能受到重放攻击.
而主动声感知身份认证则主要发出人耳难以察觉的声信号来感知人类的行为特征或者生理特征, 以进行用户
认证. SilentKey [87] 利用智能手机发出超声波信号, 并分析唇部运动对反射声信号的细粒度影响, 提取出不同用户的
独特特征进行身份认证. LipPass [88,89] 同样利用智能手机发出超声波信号, 感知用户唇部运动, 认证用户身份, 同时
还能对用户进行活体检测. 进一步将声道、舌头的个体独特性考虑进来, 从反射声信号中提取特征. Wang 等人 [90]
利用声学传感器感知用户步态数据, 通过深度神经网络 (DNN) 验证用户身份, 但是和传统步态认证方法相比, 认
证距离受限. ASSV [91] 提出一种基于声感知的在线手写签名验证方案, 使用了一种基于弦的方法来估计由微小动作
引起的声信号相位变化, 利用声信号的变化来实现手写签名验证. 进一步, Zhao 等人 [92] 利用手机内置的扬声器和
麦克风传输专门设计的训练序列, 并记录相应的回声用于信道脉冲响应 (CIR) 估计. EarEcho [93] 基于人耳耳道独特
的物理和几何特征, 利用耳塞扬声器发出 chirp 声信号, 然后使用麦克风记录通过用户耳道传播的声信号, 提取离
散傅里叶 (DFT) 特征进行认证. Zhou 等人 [15] 利用智能手机中的扬声器向用户面部发出高频声信号, 从面部反射的
声信号中, 使用 CNN 提取声学特征进行人脸认证, 并允许手机握持姿势的变化. 最近, VocalLock [94] 提出利用调频
连续波 (FMCW) 感知用户声道特征用于用户身份认证. 值得注意的是, VocalLock 不依赖固定的口令, 但有效认证
距离很短 (<10 cm). Huang 等人 [95] 利用媒体声感知验证用户持握智能手机的手部形状, 提出基于 CNN 的用户身份
验证方法. 由于反射的声信号感知精度有限, 主动声感知身份认证目前只能对小数据集用户进行认证. 表 4 总结和
对比了各种基于声感知的典型安全身份认证方案.

表 4 基于声感知的典型安全身份认证方案对比与总结

分类特征类型特征技术频带文献误判率 (%)
人类呼吸 GFCC 可听范围 [14,79] 6–20
行为特征击键声音 MFCC 可听范围 [80] 11
被动指尖摩擦 MFCC、LPCC 可听范围 [81] 3
生理特征耳道 FFT、MFCC 可听范围 [82,83] <5
信任器件硬件声指纹 MFCC、高斯超向量－ [84–86] <4
唇部运动多普勒频偏 17.5 kHz [87] /20 kHz [88,89] [87–89] <10
行为特征步态多普勒频偏 38–42 kHz [90] <10
手写签名相位变化、CIR 大于17 kHz [91,92] 5.8
主动耳道 DFT 小于6 kHz [93] 5.8
面部特征 FMCW 不可听范围 [15] 6.2
生理特征
喉咙声道 FMCW 17–20 kHz [94] 8.9
手形声谱特征小于20 kHz [95] <5

335 336 337 338 339 340 341 342 343 344 345