Page 341 - 《软件学报》2025年第5期
P. 341
周满 等: 基于声感知的移动终端身份认证综述 2241
4.2 基于声感知的双因素身份认证
基于声感知的双因素身份认证 (2FA) 只有在系统成功验证两种认证因素后, 用户才会被授予访问权限. 这样
攻击者伪造认证凭据的难度更大, 可以明显提高用户身份认证的安全强度.
直接的方法是向身份认证系统额外添加声感知的认证指标 (每种指标可以是秘密知识、生物特征或者是信任
器件), 即声感知提取其中一种认证因子. Sound-proof [16] 将环境噪声相似度作为口令认证的第 2 个因素, 以提高移
动终端的安全性和私密性. 它可以测量用户智能手机接收到的环境噪音与浏览器之间的相互关系. 此系统可能存
在安全漏洞, 智能手机上的应用程序所触发的通知或警报声音都可能被当成环境噪音, 从而破坏 Sound-proof 中的
第 2 个认证因素 [96] . 随后的研究, 如 Home alone [97] 和 Listen watch [98] , 提出使用随机选择的声音信号进行认证.
Home alone 使用智能手机主动发出的通知声音来衡量智能手机与浏览器的接近程度, 而 Listen watch 则使用人类
语音作为声音因素来检测智能手表和浏览器之间的接近程度. 与 Sound-proof 类似, 他们使用相互关系来衡量用户
[99]
的设备记录的声音与登录时使用的声音的相似性. 在此研究基础上, Proximity-echo 利用用户注册的电话和登录
设备的接近度作为 2FA 的第 2 个认证因子, 该系统通过两个设备的扬声器交替发出声学信号, 然后用麦克风感应
反射回声来提取位置特征, 并进行接近检测, 可以很好防御中间人攻击, 并且在距离大于 0.8 m 时可以有效抵抗同
位攻击. EchoPrint [100] 利用智能手机中的音频设备和前置摄像头同时提取面部轮廓, 进行用户身份验证. 它将声学
特征和面部特征作为联合特征输入到 SVM 分类器进行训练和分类. TouchPrint [101] 提出了一种基于声信号感知用
户手部姿势的双因素身份认证方法, 当用户输入 PIN 码或手势口令时, 利用声信号捕获不同用户独特的手形特征
作为第 2 认证因子. 类似地, 当用户输入手势口令时, SwipePass [102] 利用声信号捕获不同用户的握持手形特征作为
第 2 认证因子, 并进一步提高了准确率. PressPIN [103] 提出了基于结构声衰减的触屏压力感知方法, 用户在输入
PIN 码的同时, 可以考虑轻按、重按、由轻到重按压不同的 PIN 码位, 通过提取 PIN 码输入过程中手指的压力信
号组成压力码, 作为第 2 认证因子. Wu 等人 [104] 提出使用智能手机摄像头进行手形认证时, 利用主动声感知技术
同时感知另一只手的握持手形作为第 2 认证因子, 从而抵御针对手形认证的呈现攻击. 然而, 这种双因子身份认证
方法需要多个独立的输入, 大多需要用户进行额外操作, 增加了硬件和计算成本, 降低了它们在实践中的可用性.
另一种基于声感知的双因素身份认证方法是利用声信号一体化感知提取用户的全部认证因子. 与声感知提取
其一认证因子的双因素身份认证方法相比, 这种方法没有额外硬件成本, 更加方便, 用户不需要进行额外操作, 体
验更好. Proximity-proof [105] 通过 OFDM 调制的声学信号将双因素身份验证响应传输到浏览器, 可以防止中间人攻
击和同位攻击. 在传输过程中, 提取音频的独特指纹, 验证发送信号的智能手机. 这一步作为第 1 个接近检查, 可以
抵抗中间人攻击. LVID [106] 利用嘴唇反射的高频声信号捕获不同用户说话时的独特唇部运动的细微差别, 然后和
语音信号进行有机融合组成多生物特征, 以增强智能手机声纹认证的安全性与鲁棒性, 如图 9 所示. EchoLock [107]
通过研究手掌挤压智能手机对以手机本身为介质传播的声信号的影响来感知用户手形, 然后利用声信号感知的手
形生理和行为特征可以用于识别不同用户的身份. HandLock [108] 使用智能音箱内置的扬声器和麦克风来发出和感
知手掌反射的超声波信号以检测特定手势动作. 该方法可以作为语音助手执行特定敏感命令前声纹认证的第 2 认
证因素. SoundID [109] 提出了一种基于上下文共存检测和动态声学指纹决策的 2FA 系统. 其中, 动态声学指纹采用
了声学硬件频率响应 (扬声器和麦克风) 的稳定唯一性和声信号传播的不可预测性, 可以有效抵抗中间人攻击和
同位攻击. 表 5 总结和对比了基于声感知的双因素身份认证方案.
4.3 基于声感知的认证活体检测
目前, 许多生物特征认证方案都难以抵抗特征深度伪造的攻击, 导致它们的认证安全性大大减弱. 例如, 人脸
认证容易受到静态图像、视频、高精度硅胶面具等的欺骗; 声纹认证容易遭受重放攻击、合成攻击以及语音对抗
样本攻击. 此现象最根本的原因是它们普遍缺乏对认证实体进行活体检测的环节. 鉴于有生命的活体和无生命的
物体产生或反馈的声信号具有较大差异的事实, 基于声感知的认证活体检测利用声信号判断认证生物特征是否来
自有生命的活体. 基于声感知的认证活体检测主要分为被动声感知活体因素和主动声感知活体因素, 如图 10
所示.