Page 108 - 《软件学报》2020年第10期
P. 108

3084                                  Journal of Software  软件学报 Vol.31, No.10, October 2020

         了性能密度(op/multiplier/cycle),即每周期乘法器完成的操作数.以 GPU 的测试数据为基准,RV-CNN 相比于
         Cambricon 有 1.16 倍的提升.
             (2)  与其他 FPGA 加速器的对比
             表 3 列出了本设计与已有的典型 FPGA 加速器的对比结果.由于不同的工作采用了不同的量化策略和不同
         的硬件进行部署,因此很难选择出一种有效且精确的比较方法.若以每秒千兆操作数(GOPS)作为性能评估标准,
         以前的工作可以实现比我们更好的性能.但是,更高的性能背后是更多的资源消耗,例如 DSP 和 LUT 资源,因而
         功耗也会相应增加.若以每瓦特的性能(GOPS/w)作为能效评估标准,与以往的加速器相比,我们的设计在保持灵
         活性下仍具有较高的能效.

















                     Fig.11    The reduction of code length against Cambricon, GPU, x86, RV32, and ARM
                    图 11   RV-CNN 相对于 Cambricon、GPU、x86、RV32 以及 ARM 的代码长度减少

















               Fig.12    Performance and energy efficiency comparison between prototype system and CPU and GPU
                                 图 12   原型系统与 CPU、GPU 的性能、能效对比

                 Table 3    Comparison of the prototype system and previous FPGA-based accelerator deployment
                                表 3   原型系统与以往基于 FPGA 的加速器部署对比
                                    FPGA 2015 [23]  FPGA 2016 [24]  FCCM  2017 [25]  Ours
                       平台           Virtex7 VX485T   Stratix5 GSD8   Stratix5 GSMD5   Zynq XC7Z020
                    频率(MHz)             100            120           150           100
                       模型             AlexNet         VGG16         VGG16      AlexNet/VGG16
                       位宽             32-bit float   16-bit fixed   16-bit fixed   16-bit fixed
                    性能(GOPs)           61.62          117.8         364.36       21.77/35.95
                      功耗(w)            18.61           25.8          25            2.12
                   能效(GOPs/w)           3.31           4.57         14.57        10.27/16.96
   103   104   105   106   107   108   109   110   111   112   113