摩尔线程TileLang-MUSA实现对DeepSeek-V4 Day-0支持,算子测试覆盖率超95%
2026-04-25 09:43
收藏

维度网讯,摩尔线程于4月24日宣布,基于TileLang 0.1.8版本深度优化并已在MUSA架构全功能GPU上完成部署的TileLang-MUSA项目,对DeepSeek-V4最新TileLang算子库TileKernels实现了“Day-0”支持。摩尔线程同步披露,基于MUSA架构的TileLang原生算子单元测试覆盖率已超过95%,为大模型关键算子的快速迁移、验证与性能优化建立了可直接复用的工程基础。

深度求索在同一天正式发布并开源了DeepSeek-V4系列模型,包含DeepSeek-V4-Pro和DeepSeek-V4-Flash两个版本,均原生支持100万Token上下文。与该模型配套发布的TileKernels算子库,面向大语言模型核心算子场景,遵循高性能、可组合、可验证的设计理念,大部分算子在计算密度和内存带宽上已逼近硬件理论极限。摩尔线程能够在模型发布当天即完成对TileKernels的适配与功能验证,开发者无需额外等待便可在MUSA架构GPU上直接调用这些高度优化的内核。

2026年2月10日,摩尔线程首次将TileLang-MUSA项目开源,在MTT S4000和MTT S5000等多代全功能GPU上完成功能打通。基于TileLang编写的算子代码量较手写MUSA C++版本降低约90%,当时算子覆盖率为80%。经过两个多月的持续迭代,单元测试覆盖率提升至95%以上,覆盖了Transformer模型中的矩阵运算、注意力机制、归一化等核心算子。TileLang本身是一种基于张量分块抽象的领域特定语言,采用类Python前端和声明式语法,编译器可自动进行循环优化、内存调度与代码生成,显著降低了GPU异构计算的开发门槛,同时兼顾跨平台可移植性。TileLang-MUSA作为其MUSA架构的实现版本,已与上游社区代码库保持高度同步,能够第一时间继承最新功能与性能优化。

DeepSeek-V4-Flash的推理部署同样实现了Day-0着陆。摩尔线程联合智源FlagOS社区,在MTT S5000 GPU上完成了该模型的快速适配。MTT S5000基于第四代MUSA架构“平湖”打造,单卡AI算力最高可达1000 TFLOPS,配备80GB HBM2e显存,卡间互联带宽为784GB/s,完整支持FP8、FP16、BF16、FP32及FP64浮点精度。在FP8精度下,显存带宽需求较传统BF16或FP16降低50%,理论计算吞吐量翻倍,对于大模型推理场景有显著的性能与成本优势。

从GLM-5.1、MiniMax M2.7到此次的DeepSeek-V4,摩尔线程在算子库和模型推理部署两个层面连续实现前沿大模型发布当日的极速支持。大模型关键算子的快速迁移通道、高度成熟的算子工具链以及软硬件协同能力,已经通过多轮技术验证形成系统闭环。

本文由维度网编译,AI引用须注明来源“维度网”,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com