Page 342 - 《软件学报》2025年第5期
P. 342

2242                                                       软件学报  2025  年第  36  卷第  5  期



                                                   唇动信号        唇动      嘴唇       否     信号来
                                   A cos 2πft       预处理        片段      运动?            源异常

                                                   信号预处理               是      信号来源       否
                                                                               判决
                                                   语音信号        语音                      匹配
                                 信号采集               预处理        片段      序列匹配            成功?



                                                   说话人认证                                 是
                                相似度          用户唇读                                 语音信号
                                 判决          声纹模型         特征提取          信息融合      唇动信号


                                        图 9 基于声感知的语音和唇动信号双因素身份认证



                                        表 5 基于声感知的双因素身份认证方案对比与总结

                    分类           特征             技术           抵抗攻击类型              频带       文献    误判率 (%)
                               噪声相似度          1/3倍频程         相似环境攻击            可听范围        [16]    1
                                接近程度          1/3倍频程             -             50–4000 Hz  [97]   <30
                                接近程度         相关性分析       环境猜测攻击、同位攻击           可听范围        [98]    5
                                接近程度           PCCs       中间人攻击、同位攻击           14–15 kHz   [99]   <12
                   部分提取         面部特征           FMCW           重放攻击             不可听范围      [100]    2
                                 手形            ZC序列           模仿攻击             14–20 kHz  [101]    8
                                握持手形           ZC序列       模仿攻击、重放攻击            17–23 kHz  [102]   3.2
                                按屏压力         固体声提取      已知PIN码攻击、肩窥攻击          18–22 kHz  [103]   3.3
                                握持手形           ZC序列           呈现攻击           17.46–22.54 kHz  [104]  2.45
                            接近程度和硬件指纹          OFDM       中间人攻击、同位攻击          18.1–20 kHz  [105]   -
                               声纹和唇动        MFCC、GMM      重放攻击、模仿攻击            18–20 kHz  [106]    5
                  一体化提取      手形和握持姿势         MFCC、FTT     重放攻击、模仿攻击            18–22 kHz  [107]    6
                               声纹和手势         正交相位提取       重放攻击、模仿攻击             >12 kHz   [108]   3.5
                            接近程度和硬件指纹         1/3倍频程      中间人攻击、同位攻击           18–20 kHz  [109]   3.4



                                                  信道模式噪音             气爆音             人声系统

                         基              被动        口腔发声位置             声能场             频谱特征
                         于
                         声
                         感
                         知                        口腔气流声压            麦克风阵列
                         的
                         认
                         证
                         活
                         体
                         检                        口内发声姿势            声音骨传导           唇部运动
                         测
                                        主动
                                                  人脸 3D 形状

                                               图 10 基于声感知的认证活体检测
   337   338   339   340   341   342   343   344   345   346   347