Page 65 - 《软件学报》2025年第10期
P. 65

4462                                                      软件学报  2025  年第  36  卷第  10  期


                 sampling modules, reconfigurable storage units designed for multiple parameter sets, and high-parallelism timing state machines tailored for
                 complex  multi-module  architectures.  These  optimizations  aim  to  overcome  performance  bottlenecks  and  achieve  enhanced  signature
                 operation  efficiency,  ultimately  realizing  a  digital  signature  hardware  architecture  that  supports  three  security  levels  simultaneously.  The
                 proposed  hardware  architecture  is  deployed  and  evaluated  on  the  Xilinx  Artix-7  FPGA  platform  and  compared  against  existing
                 implementations.  The  results  demonstrate  that  the  proposed  design  achieves  improvements  in  signature  operation  efficiency  by  factors  of
                 7.4,  8.3,  and  5.6  across  the  three  security  levels,  respectively.  This  advancement  provides  a  robust  performance  foundation  for  quantum-
                 resistant  digital  signature  applications  and  offers  valuable  insights  for  the  engineering  and  practical  deployment  of  lattice  cryptographic
                 schemes.
                 Key words:  post-quantum cryptography; lattice-based cryptography; digital signature algorithm; FPGA; hardware implementation

                    公钥密码算法体系是保障现代社会信息安全的基石, RSA                  和  ECC  作为其中的最重要的两种算法         [1] , 基于其构
                 建的密钥封装机制、数字签名协议和同态加密等高级密码学应用, 可以保证通信双方核心数据要素的保密性、完
                 整性和不可抵赖性, 因此在云计算、车联网、区块链等新兴计算平台上得到了广泛的应用. 随着量子计算技术的
                 快速发展, 传统的基于大数分解和离散对数的传统密码学方案将有可能被运行量子算法的计算机系统在多项式时
                 间内破解, 其中最著名的量子算法是基于傅里叶变换的                  Shor 算法  [2.3] 和  Grover 提出的关于无序数据库的搜索算
                 法  [4] . 其中, Grover 算法常被用于对称算法   (如  AES  算法) 的分析和破解, 而   Shor 算法主要用于攻击基于椭圆曲线
                 构建的密码学方案. 为了应对量子计算技术对现有的公钥密码基础设施的安全性威胁, 后量子密码技术                                    (post-
                 quantum cryptography, PQC) 受到了学术界和工业界的广泛关注和重点研究           [5,6] .
                    美国国家标准研究院        (National Institute of Standards and Technology, NIST) 从  2016  年开始向全球征集后量子
                                                                                 [9]
                                                             [8]
                 密码算法的标准化方案        [5,7] , 共包括基于哈希  (hash-based) 、基于编码  (code-based) 、基于多变量   (multivariate-
                 based) [10] 、基于同源  (isogeny-based) [11] 和基于格  (lattice-based) [12] 这  5  种基础构造方法, 由于基于格的技术路线可
                 以更好地平衡安全性、公私钥尺寸和实现效率这                  3  方面的因素, 因此得到了重点的研究和关注. 根据               NIST  在
                 2022  年  7  月发布的后量子标准项目的评选结果, 第           1  批的  4  个标准化算法中有     3  个为格基密码方案, 其中
                 CRYSTALS-Kyber [13] 被确定为密钥封装机制的标准化方案, CRYSTALS-Dilithium       [14] 和  Falcon [15] 为数字签名算法.
                 在最新的研究报告中, NIST       官方在   ARM-CortexM4  平台上对两种数字签名算法进行了全方位的性能对比                  [16] , 由
                 于  Falcon  的方案设计中存在大量的浮点运算, 这使得签名方案的实例化部署过程更加复杂. 结果表明                         Dilithium  的
                 签名运算效率要远高于        Falcon, 并且占用的存储资源更少. 从安全性层面来看, Dilithium         方案可以使用唯一的公钥
                 和明文信息对应给定的签名, 即签名结果存在强不可伪造性. 因此                      NSIT  官方在公布的报告中明确指出, 推荐
                 Dilithium  为后量子数字签名算法的标准化方案, 最终的标准化报告于                2024  年  8  月发布  [17] , 并将其命名为数字签
                 名标准   ML-DSA.
                    Dilithium  是一种经典的基于格理论的数字签名方案, 其安全性基于                MLWE (module learning with errors) 问题
                 和  MSIS (module short integer solution) 问题  [18] . Dilithium  的大多数操作为多项式环上的乘法运算, 可以使用数论
                 变换  (number-theoretic transform, NTT) 技术实现运算过程的加速, 这样的设计结构非常适合软硬件平台进行优化
                 实现和实际部署, 因此具备了较好的工程化和实用化前景. 此外, Dilithium                方案采用了     Fiat-Shamir with Aborts 结
                 构, 签名过程包括一系列条件检查和拒绝运算, 这个过程确保生成的签名不泄露任何私钥信息. 考虑到量子计算技
                 术的快速发展以及数字签名技术在网络通信安全过程中发挥着不可替代的作用, 同时类似于区块链和云计算这种
                 新型的计算平台对于算法部署的灵活性和安全标准的多样性有较高的要求, 因此设计并实现专用化、可重构、轻
                 耦合的后量子数字签名算法集成电路, 从而在多维应用场景下为核心数据提供高性能的、抗量子安全的身份验证、
                 数据完整性保护、数据抗抵赖性、认证授权和隐私保护等服务, 成为                         PQC  领域一个重要的研究方向. 本文以
                 Artix-7  系列  FPGA  平台为基础提出一种新的针对       Dilithium  算法最新参数集的完整硬件实现方案, 通过对功能模
                 块进行针对性的优化, 并充分利用          FPGA  模块级并行的特点进一步突破签名运算的性能瓶颈, 旨在为                   Dilithium  算
                 法的实用化进程提供有价值的硬件设计参考方案, 具体工作如下.
                    (1) 针对签名算法运算数据量较大这一特点, 本文设计了专用化的高吞吐量脉动阵列单元作为多项式运算模
                 块的核心, 将数论变换的       8  级运算以硬件资源的形式进行固化, 并统一实现八并行的                  NTT  运算、INTT  运算、点
   60   61   62   63   64   65   66   67   68   69   70