面壁智能开源首个基于国产算力平台训练的端侧高效大模型

2026-05-25 15:04

近日，面壁智能联合清华大学、OpenBMB开源社区正式发布并开源其在低比特大模型训练方向的最新成果——BitCPM-CANN。这是首个完全基于国产算力平台（华为昇腾）实现端到端训练并开源的三值（1.58-bit）大模型。

长期以来，内存的物理瓶颈是大模型走向规模化应用的挑战，内存正在成为全球AI供应链中最紧张的资源之一。在此背景下，BitCPM-CANN采用量化感知训练路线，迫使每一个bit发挥出最大信息密度和知识承载效率。同时，BitCPM-CANN提供的6倍显存优化，允许企业在不增加物理内存的情况下提升模型能力或服务密度。

值得一提的是，从最底层的量化算子、量化感知训练算法，到完整的并行策略和训练框架，BitCPM-CANN的整个训练链路均在华为昇腾上原生完成，包含0.5B、1B、3B、8B四个模型尺寸，与同尺寸MiniCPM-4全精度家族逐项对照评测，性能表现优异。这是昇腾平台上首个公开的、端到端完成1.58-bit训练并进行全精度对照评测的成果，且模型规模一次性推进至8B级别。

业内人士认为，BitCPM-CANN的发布与开源，实现了国产NPU、国产模型、国产训练框架的完整闭环，为端侧AI产业提供了直接可用的低比特模型方案。

中国

信息通信

本文来自全球互联网及战略合作伙伴信息的编译与转载,仅为读者提供交流,有侵权或其它问题请及时告之,本站将予以修改或删除,未经正式授权严禁转载本文。邮箱:news@wedoany.com

上一篇：中国首款智能淋水机器人：推动城市建设从经验验收到智能品鉴

下一篇：中国首套零煤气消耗块矿烘干装置投运，每年降本千万、减碳5400吨