Page 67 - 《软件学报》2025年第10期
P. 67

4464                                                      软件学报  2025  年第  36  卷第  10  期


                 通过深入研究蝴蝶运算中的操作数变化规律, 确定了模数                   q  对应的数据路径上所有寄存器的位宽上限, 从而设计
                 了一种紧凑型低延迟的蝴蝶运算单元. 在此基础上, Zhao               等人设计了    3  种并行模式的数论变换模块并进行对比测
                 试, 结果显示与单结构相比, 二并行和四并行结构在运算效率增加                      2  和  4  倍的同时, 硬件资源仅提高了      1.45  和
                 2.58  倍, 主要原因是在例化过程中存在资源复用的情况, 这对于高性能运算模块的设计提供了有意义的参考. Xing
                 等人  [38] 提出了一种新的蝴蝶运算单元的设计思路, 其核心思想可概括为: 将格密码方案中的多种不同类型的运算
                 过程抽象化为一系列基础运算的排列组合, 进而将上述运算过程在硬件层面同构设计成为一个复合功能模块. 这
                 种设计模式能够有效提升硬件资源的利用率, 在               Zhao  等人  [30] 和  Hu  等人  [39] 的工作中也体现出类似的设计思路. 需
                 要注意的是, 这种高度同构的设计模式可能会造成流水线中的运算级延迟时间变长, 从而影响整个模块的最高频
                 率, 因此应根据具体的应用需求综合考虑设计架构. 除了上述经典的迭代结构的多项式运算模块, 还有一种针对高
                 性能运算的流水线型设计架构, 其核心思想是将数论变换                   (或类似的算法) 的多级运算过程中的操作数匹配规则
                 用硬件资源进行固化, 在提升输出端口并行度的同时, 以运算级深度为基准例化整个数据流通路径, 最终形成二维
                 结构的蝴蝶单元排列范式. 上述设计思路首先在               Mook  等人  [40] 提出的  FFT  算法硬件架构设计过程中得以体现, 并
                 进一步在上文介绍的       Zhao  等人  [26,30] 的工作中针对  Dilithium  算法的核心运算过程进行了针对性的优化和扩展. 这
                 种设计架构只需将操作数不断地送入运算单元输入端即可得到最终的结果, 因此具有较高的吞吐率, 非常适合大
                 量数据且单一运算的应用场景.
                    随着  NIST  最终的标准方案的公布, 对于        PQC  的迁移应用的研究将进入到实质性的阶段. 从实例化部署和工
                 程化应用的角度分析, 与另外两种实现方案相比, 纯硬件的设计方案有如下优势.
                    1) 性能提升明显. 通常在独立的硬件资源空间内针对特定的算法设计专用型的电路结构, 并使用时序状态机
                 确保功能的正确实现, 无需调用软件资源实现逻辑控制, 这意味着方案设计更加关注算法本身的特点而非多平台
                 之间的交互规则, 特别是对于单一算法进行优化实现时, 软硬结合方案的通用性优势难以很好地体现. 同时, 硬件
                 设计本质是一种比特层面的实现方案, 可以从功能模块和整体架构两个维度实现运算的并行性. 由于存在上述两
                 方面的特点, 纯硬件设计方案通常可以实现更高的性能提升.
                    2) 体系结构更加成熟. 经过数十年的研究与发展, 硬件设计的理念在学术界与工业界均取得了丰富的科研成
                 果和工具支持. 其中, 寄存器传输级         (register-transfer level, RTL) 设计方法已成为主流  [41] . 具体地, 硬件系统可抽象
                 成为数据路径与控制网络两个部分, 并分别由不同的硬件单元组成. 数据路径通常涉及中等规模的组件, 如加法器、
                 乘法器、寄存器、多路复用器等, 主要负责操作数的运算与存储. 而控制网络则对应时序状态机设计, 其核心是由
                 计数器、选择器、触发器、控制信号等基础的逻辑单元构成的复杂硬件结构. 设计者能够直接或间接地规定每个
                 时钟周期内电路的行为, 进而控制数据路径的工作模式, 并实现所需的计算流程. 此外, 基础的                           RTL  设计指导原则
                 包括速度与面积互换、流水线设计和乒乓操作这                 3  种. 具体地, 第  1  种通常视为整体性的设计原则, 通过明确延迟
                 时间、时钟周期、面积以及功耗这             4  个指标优先级差异, 将硬件设计分为高性能和轻量级两种解决方案, 从而根
                 据算法结构特点和应用场景需求提出更加适合的硬件设计思路, 并且有利于完成进一步的实例化部署和应用. 流
                 水线设计在微观层面的实施方式是在一个组合逻辑电路中插入寄存器, 从而降低最长路径的延迟时间. 如果将插
                 入的寄存器视为一系列简单的运算单元, 也可将流水线思想推广到宏观层面, 用于分析并实现较为复杂的功能模
                 块, 如本文第   3.2  节所示. 乒乓操作是使用      FIFO  或寄存器资源实现数据的缓存, 通常用于实现流水线结构的数据
                 对齐或不同模块输入输出端的数据规整化.
                    3) 产业化成本可控. 考虑到国内和国际的            PQC  标准化方案仍存在进一步优化和发展的空间, 新的公钥加密体
                 系尚未建立, 因此目前的抗量子安全迁移进程正处于重要的过渡阶段. 这意味着现有的后量子密码算法的软硬件
                 实现方案不仅要考虑综合性能, 还需要关注实际的部署成本, 为未来实现基于后量子密码算法的专用化密码学芯
                 片做好技术储备. 如上文所说, FPGA         芯片经过数十年的发展, 已经具备了成熟的技术体系和完善的产业生态, 结
                 合已有的密码板卡设计模式, 能够快速形成低成本的产品研发和技术迭代. 更重要的是, 已有的、经过产业实践检
                 验的纯硬件设计成果能够以          IP  核形态挂载至总线结构上, 从而高效且平滑的构建专用密码学芯片的设计方案. 这
                 是其他设计方案所不具备的产业优势, 非常适合过渡阶段的低成本工程化特点.
   62   63   64   65   66   67   68   69   70   71   72