Page 108 - 《软件学报》2024年第6期
P. 108

2684                                                       软件学报  2024  年第  35  卷第  6  期



                                                    0.20
                             Conv(1×64×58×58,64×64×3×3)
                                                           0.66
                                                    0.18
                           Conv(1×32×114×114,96×32×3×3)                                    3.12
                          卷积尺寸  Conv(1×48×30×30,384×48×3×3)  0.17  1.12
                           Conv(1×192×7×7,1536×192×1×1)  0.18
                                                        0.47
                                                    0.19
                           Conv(1×1536×7×7,192×1536×1×1)
                                                                   1.37
                                                 0     0.5   1.0    1.5    2.0   2.5    3.0   3.5
                                                           单位加速比所需调优开销 (ms)
                                            AutoConfig 单位加速比所需调优开销    TVM 单位加速比所需调优开销
                                                (a) AVX512 平台单位加速比所需调优开销的比较
                             Conv(1×64×58×58,64×64×3×3)  0.09                   2.64
                                                   0.09
                           Conv(1×32×114×114,96×32×3×3)                                     3.63
                          卷积尺寸  Conv(1×48×30×30,384×48×3×3)  0.10  0.89

                           Conv(1×192×7×7,1536×192×1×1)  0.52
                                                                                 2.72
                                                        0.50
                           Conv(1×1536×7×7,192×1536×1×1)
                                                                                 2.73
                                                 0    0.5   1.0   1.5  2.0   2.5   3.0   3.5  4.0
                                                           单位加速比所需调优开销 (ms)
                                      AutoConfig 单位加速比所需调优开销        TVM 单位加速比所需调优开销
                                                (b) Arm Neon平台单位加速比所需调优开销的比较

                                         图 6 单位平台加速比所需调优开销的跨平台比较

                 7   总 结

                    本文提出了     AutoConfig, 一种面向深度学习编译优化的自动配置机制. 针对不同的深度学习计算负载和硬件
                 平台, 该机制构建了具备可配置的代码生成重写模式和可解释性的优化分析模型, 通过分析静态提取的信息和动
                 态测量的开销来确定最佳的参数配置与优化算法, 从而进行代码生成. 本文还将                         AutoConfig  集成到深度学习编译
                 器  Buddy Compiler 中, 旨在达成一次优化实现适配多种硬件平台的目标. 通过对深度学习模型中的卷积和矩阵乘
                 法的优化实验, 本文验证了        AutoConfig  自动配置优化和调优方法能够解决当前深度学习编译器调优开销大, 优化
                 效果可解释性差的问题. AutoConfig      生成的优化代码可以达到与编译器自动调优相似的性能表现, 同时避免了重
                 复实现和反复调优.
                    本文期望    AutoConfig  成为自动配置编译优化的基础设施, 并拥有开放的使用模式. 本文阐述的优化分析模型
                 和动静融合的调优策略并非与           AutoConfig  的基础设施紧密耦合. 用户可以提供不同的优化分析模型和调优机制
                 来驱动   AutoConfig, 从而实现更加高效的编译优化. 例如, 用户可以针对其他深度学习场景进行代码生成, 可以采
                 用更多样的优化算法进行比较和调优, 也可以从硬件平台收集更细颗粒度的信息并建立理论模型来提高性能预测
                 的准确性, 还可以集成       Amdahl 模型、Roofline 模型等不同的分析模型进行针对性的调优等. 因此, 本文更长远的
                 意义在于提供了全新的编译优化开发范式, 将编译优化解耦为开发、分析和调优的过程, 为编译优化提供了新的
                 研究方向.

                 References:
                  [1]  Krizhevsky A, Sutskever I, Hinton GE. ImageNet classification with deep convolutional neural networks. In: Proc. of the 25th Int’l Conf.
                     on Neural Information Processing Systems. Lake Tahoe: ACM, 2012. 1097–1105. [doi: 10.5555/2999134.2999257]
                  [2]  Radford A, Kim JW, Xu T, Brockman G, McLeavey C, Sutskever I. Robust speech recognition via large-scale weak supervision. In: Proc.
   103   104   105   106   107   108   109   110   111   112   113