Page 332 - 《软件学报》2025年第5期

P. 332

2232 软件学报 2025 年第 36 卷第 5 期

全性上有所提高. 但是目前大多数双/多因素身份认证方法只是简单地对多个身份凭据逐一认证 (例如先要求用户
输入 PIN 码, 然后再进行面部或指纹认证), 认证过程繁琐, 实用性降低. 多因素有机融合的身份认证方法已经成为
研究趋势. 例如, 在提取语音声纹特征的同时捕获唇部运动特征 [12] ; 在输入手势口令的同时捕获手指在触摸屏上
的压力、方向、速度等行为特征 [13] . 只有多个认证因素同时满足要求时, 才可能通过认证. 多因素的有机融合使
得安全性进一步提升, 并且用户不需要进行额外操作, 实用性高.

2.2 基于声感知的身份认证分类
声信号作为一种独特的物理信号, 由于它在短距离内具有良好的反弹特性和强抗干扰能力, 正在逐渐被关注
和利用起来. 相比于其他物理信号, 声信号更容易获取, 且无需额外成本. 此外, 在声感知领域还有扎实的理论基础
和相对成熟的技术支持, 能够充分提取声信号特征. 例如基于到达时间 (time-of-arrival, ToA) 的感知技术利用传输
时间测量声信号在精准同步的发射器和接收器之间的距离; 在不同步的情况下, 基于调频连续波 (frequency
modulated continuous wave, FMCW) 的感知技术利用啁啾信号的几何关系得出发射和接收信号之间的频率差, 从
而量化传输时间; 基于信号强度 (signal strength)、相位变化 (phase change) 和多普勒频移 (Doppler shift) 的感知技
术, 可以追踪物体 (例如用户手指) 的运动, 以用于各种传感应用. 经过长时间探索, 许多研究已经表明, 基于移动
终端的声感知已在各种应用领域显示出优越性能. 如图 2 所示, 这些应用主要集中于安全与隐私、活动识别与跟
踪、定位与导航、近距离通信等领域.

硬件架构声感知技术声感知应用身份认证
双因素身份认证
安全与隐私
信号强度认证活体检测
语音隐私保护
相位偏移
活动识别与追踪手势识别
人机交互
多普勒频移
健康监测
到达时间定位和导航测距测向
室内外定位
调频连续波平面图构建
近距离通信可听声波通信
信道冲激响应
超声波通信
图 2 基于声感知技术的应用

基于声感知的移动终端身份认证方法利用声信号感知秘密知识、生物特征等认证凭据进行身份认证, 主要包
括典型身份认证、双因素身份认证和认证活体检测, 如图 3 所示. 基于声感知的典型身份认证系统主要分为两类:
第一种类型是被动声感知身份认证, 即认证实体发射特征声信号. 例如, BreathPrint [14] 从 3 个级别的人类呼吸声中
提取声学特征, 即嗅探、正常呼吸和深呼吸, 用于用户身份验证; 第 2 种类型是主动声感知身份认证, 即认证系统
发射提取用户身份特征的声信号. 例如, EchoPrint [15] 利用内嵌的音频设备发射探测超声波, 经面部反射后, 提取回
声的声学特征能够反馈面部形状, 为身份认证系统提供生理认证凭据. 基于声感知身份认证的另一大研究分支是
基于声感知的双因素身份认证 (two-factor authentication, 2FA). 基于声感知的部分提取双因素身份认证方法就是
向认证系统额外添加声感知的认证指标 (每种指标可以是秘密知识、生物特征, 或者信任器件). 例如, Sound-
proof [16] 使用秘密知识作为第 1 认证因子, 声感知的注册设备和登录设备接近程度作为第 2 认证因子. 它利用设备
麦克风录制环境噪音, 分别提取注册设备和登录设备所录制音频的声学特征, 计算相似度, 提供接近程度凭据. 基
于声感知的一体化提取双因素身份认证方法利用声信号能够同时提取用户的多个身份认证因素. 与传统的多因素
身份验证方法相比, 这种方法没有额外硬件成本, 更加方便, 用户不需要进行额外操作, 体验更好. 基于声感知的认
证活体检测主要分为被动声感知活体因素和主动声感知活体因素. 第 1 种类型利用真实用户发射的声信号和扬声
器发射的声信号之间的区别鉴别认证对象是否为活体. 例如, VoicePop [17] 利用用户在靠近麦克风说话时呼吸产生

327 328 329 330 331 332 333 334 335 336 337