Page 490 - 《软件学报》2025年第8期

P. 490

王昊天等: MTTorch: 面向 MT-3000 芯片和 Transformer 模型的 PyTorch 算子库实现与优化 3913

MT CPU 500 MT CPU
700 DSP 向量化 DSP 向量化
DSP 向量化+乒乓算法 DSP 向量化+乒乓算法
600 400
执行时间 (ms) 400 执行时间 (ms) 300
500

300
200
200
100
100
0 0
2 18 2 20 2 22 2 24 2 26 2 28 2 18 2 20 2 22 2 24 2 26 2 28
数据量数据量
(a) log_softmax (b) layer_norm

MT CPU 400 MT CPU
350
DSP 向量化 DSP 向量化
DSP 向量化+乒乓算法 350 DSP 向量化+乒乓算法
300
300
执行时间 (ms) 200 执行时间 (ms) 250
250
200
150
100 150
100
50 50
0 0
2 18 2 20 2 22 2 24 2 26 2 28 2 18 2 20 2 22 2 24 2 26 2 28
数据量数据量
(c) softmax_back (d) softmax

500 MT CPU
DSP 向量化
DSP 向量化+乒乓算法
400
执行时间 (ms) 300

200

100

0
2 18 2 20 2 22 2 24 2 26 2 28
数据量
(e) log_softmax_back
图 12 算子优化消融实验

可以看出, 两个模型的加速比都要显著优于 CPU 同构环境下的 PyTorch, 且随着节点的增加加速比逐渐呈线
性增加, 说明本文实现的方法可以为基于 MT-3000 搭建的高性能计算集群带来更强的可扩展性, 使得 DSP+CPU
异构集群在人工智能领域的潜力可以被进一步激发.

5 总结

本文结合训练大语言模型的实际需求, 介绍了面向天河新一代超算系统加速芯片 MT-3000 的 PyTorch 扩展
库——MTTorch 的设计和实现. MTTorch 运用单例模式对 DSP 设备和线程组进行高效管理. 算子层面, 本文利用

485 486 487 488 489 490 491 492 493 494