Page 334 - 《软件学报》2025年第5期

P. 334

2234 软件学报 2025 年第 36 卷第 5 期

进行标注, 生成一个新的数据集. 使用新的数据集对模型 model 进行微调训练, 之后得到新的模型 model', 使用模
型 model'生成声纹认证系统所需的语音数据, 并进行播放. 合成攻击对声纹认证系统具有较大的威胁.
语音对抗样本攻击是通过在语音数据集中添加细微扰动形成有害语音样本, 该样本会导致声纹认证系统以高
置信度给出一个错误的输出 [25] . 机器学习模型对于语音对抗样本攻击十分敏感, 攻击者只对原始语音样本进行轻
微改动, 即可导致系统出错. 通过认证后, 攻击者可以播放一段特别制作的恶意语音命令, 人耳无法觉察, 但是语音
控制系统会执行相关恶意语音命令操作.
中间人攻击是针对基于声感知的 2FA 的有效攻击方式. 如图 4 所示, 攻击者在空间位置上远离受害者, 并冒
充受害者身份向 Web 服务器发送登录请求, 然后 Web 服务器分别向攻击者的登录设备和与受害者账号绑定的注
册手机发送信息. 它们做出响应后, 双方所处环境下的声信号会通过隐蔽的高速传输通道实时传递给对方, 继而提
供有效的接近证明.
同位攻击与中间人攻击不同, 它要求攻击者在空间位置上接近受害者. 如图 5 所示, 当攻击者尝试登录时, 会
触发注册手机自动响应, 生成对应的声信号. 攻击者的登录设备可以偷录到该声信号响应. 但是, 一般情况下, 同位
攻击需要攻击者与受害者很接近时才能攻击成功, 攻击的隐蔽性差, 容易被察觉.

移动终端

移动终端
合法用户攻击者
合法用户登录设备

高速传输信道
窃听设备移动终端攻击者登录设备
图 4 中间人攻击模型图 5 同位攻击模型

3 移动终端身份认证进展

本节主要对移动终端基于不同认证凭据 (秘密知识或生物特征) 的身份认证国内外研究进展进行分析、总结
和对比, 基于信任器件的身份认证方法很少单独使用, 我们在此不展开讨论. 双/多因素身份认证通常结合两个或
多个身份认证指标来提供比使用单一验证指标更安全的身份认证. 多个身份验证指标结合的科研工作较为繁杂,
我们在下一节专注讨论基于声感知的双因素身份认证科研进展.

3.1 基于秘密知识的身份认证
基于秘密知识的身份认证是一种长期以来被广泛应用在移动终端上的身份认证方式, 主要依靠只在合法用户
和身份认证系统之间共享的秘密知识进行身份认证. 如图 6 所示, KBA 系统基本可以依照秘密知识的类型分为以
PIN 码和口令为代表的文本型和以手势口令 [26] 和图形口令为代表的图案型.

3.1.1 文本型秘密知识身份认证
文本型秘密知识可以是数字字符、字母字符、数字和字母的组合. 用户简单地在移动终端触摸屏上输入 PIN
码或口令以进行身份验证. 到目前为止, 这些基于文本的身份认证方法在验证用户身份、保护用户数据安全、移
动终端访问控制的应用场景下, 仍然应用最为广泛 [27] . 大量网站的口令强度评价方法为基于规则的方法, 即口令
强度依据所包含的字符长度和类型, 字符长度越长, 类型越复杂, 被随机猜测或暴力破解的可能性就越低 [28] . 近年
来, 深度学习技术的发展为改进口令猜测技术、提高口令破解效率提供了潜在的新途径, 智能口令猜测逐渐形成
了口令破解的最新方法 [29] . 为确保用户的 PIN 码或口令不被其他人猜到, 用户必须记住超过一定长度的字符串.
例如, 与移动终端上的应用程序 (例如移动支付) 关联的 PIN 码长度通常为 4 位或 6 位数字. 在相同长度下, 口令
相比 PIN 码安全级别更高, 因为字母数字组合比纯数字组合可能性更多. 然而, 基于文本的身份认证面临极其严峻
的安全问题. Bonneau 等人 [11] 根据对 1 100 多名银行客户的调查, 分析了用户选择 4 位 PIN 的偏好, 发现人们倾向

329 330 331 332 333 334 335 336 337 338 339