Page 333 - 《软件学报》2025年第5期
P. 333

周满 等: 基于声感知的移动终端身份认证综述                                                          2233


                 的气爆音鉴别认证对象是否为真实活体. 第              2  种类型利用真实用户反射的声信号鉴别认证对象是否为活体. 例如,
                 VoiceGesture [18] 通过测量反射声信号的多普勒频移来识别认证实体的发声姿势, 从而区分真实用户的声音和扬声
                 器发出的声音.

                                                                         如人类呼吸、人类指纹、硬件声指纹、身体
                                                     被动声感知认证凭据
                                                                         传声、击键行为
                                     典型身份认证
                                                                         如唇部运动、 耳道传声、 步态、 手写签名、
                                                     主动声感知认证凭据
                                                                         人脸、 喉咙声道、 手形、 签名姿势
                                                     声感知其一认证凭据           如噪声相似度、接近程度、手形、按屏压力
                       基于声感知
                       的身份认证        双因素身份认证
                                                                         如接近程度和硬件声指纹、声纹和唇动、声
                                                     声感知全部认证凭据           纹和手势、手形和握持姿势

                                                                         如信道噪声、声带震动、气爆音、口腔气流声
                                                     被动声感知活体因素
                                                                         压、声能场、声音骨传导、麦克风阵列指纹
                                     认证活体检测
                                                                         如口内发声位置、唇部运动、口内发声姿势、
                                                     主动声感知活体因素
                                                                         人脸 3D 形状
                                                 图 3 基于声感知的身份认证

                    相较于传统的身份认证方法, 基于声感知的身份认证方法有着独特的优势. 基于秘密知识的身份认证容易受
                 到肩窥攻击、智能口令猜测等攻击. 而基于声感知的身份认证可以提取秘密知识输入过程中的独特隐性特征来增
                 大秘密空间, 提高认证系统的安全性和鲁棒性, 并且不需要额外操作. 基于生物特征的身份认证一般需要特定传感
                 器, 成本较高. 声学传感器具有普适低成本特性, 绝大多数移动终端自带声学传感器, 这为基于生物特征的身份认
                 证设计提供了更大的灵活性. 此外, 基于生物特征的身份认证容易受到深度伪造攻击的威胁, 可以通过声感知的方
                 法提供多种活体检测方法. 由于声学信道的开放性, 基于声感知的身份认证系统也面临着许多安全问题. 例如, 攻
                 击者可以发动重放攻击, 以欺骗身份认证系统. 对于语音识别控制系统, 攻击者可能会发动对抗样本攻击, 例如将
                 恶意的语音命令嵌入正常播放的音频中, 在受害者无法感知的情况下攻击语音助手系统                             [19] , 这样类型的攻击是极
                 易传播, 危害巨大; 攻击者还可以利用音频设备监听键盘击键声音, 以定位击键区域                         [20] , 或推测设备解锁模式    [21] .
                 目前基于声感知的移动终端身份认证安全性增强已成为一大研究方向.

                 2.3   基于声感知的认证攻击模型
                    由于声学信道的开放性和音频设备的易得性, 一般基于声感知的身份认证极易遭受攻击. 目前, 部署最为广泛
                 的声感知认证方案是声纹认证. Shirvanian        等人  [22] 对攻击者模仿目标用户说话的模仿攻击进行了深入研究, 对部
                 署在几个最先进的       Android  和  iOS  应用程序中的声纹认证系统分别进行语音重放攻击和合成攻击, 均展现出较高
                 的攻击成功率. 随着对抗神经网络的发展, 语音对抗样本攻击作为一种新型攻击手段, 被证明能够以隐蔽的方式重
                 构语音并欺骗系统做出错误行为, 对现有的语音识别控制系统具有极大的危害                         [23] . Web  登录场景下  2FA  容易遭受
                 中间人攻击    (man-in-the-middle attack, MiM) 和同位攻击  (co-located attack) [16] . 本节将对不同攻击类型逐个阐述.
                    重放攻击是最常见的攻击方式. 攻击者首先偷录合法用户在身份认证过程中释放的声信号, 然后进行重放, 以
                 此达到欺骗身份认证系统, 获取权限的目的. 例如, EchoPrint            [15] 利用音频设备发射    FMCW  声信号, 并收集面部回
                 声, 提供面部生理特征认证凭据. 攻击者同样可以在合法用户身份认证期间, 录制回声音频, 然后重放录制的音频
                 对系统进行攻击; 基于声纹的身份认证系统, 一般依赖用户语音中独特的声轨形状作为身份凭据, 完成对用户的认
                 证. 而攻击者可以录制受害者的语音并通过扬声器将录制的声音播放, 以达到欺骗认证系统的目的.
                    合成攻击的主要思路是从用户语音中获取声纹特征, 并生成具有相同声纹特征的其他语音                               [24] . 具体做法是攻
                 击者输入大量语音数据, 通过语音合成算法, 训练语音合成模型                   model. 然后将受害者的语音数据按照一定的格式
   328   329   330   331   332   333   334   335   336   337   338