近日,面壁智能联合清华大学、OpenBMB开源社区正式发布并开源其在低比特大模型训练方向的最新成果——BitCPM-CANN。这是首个完全基于国产算力平台(华为昇腾)实现端到端训练并开源的三值(1.58-bit)大模型。
长期以来,内存的物理瓶颈是大模型走向规模化应用的挑战,内存正在成为全球AI供应链中最紧张的资源之一。在此背景下,BitCPM-CANN采用量化感知训练路线,迫使每一个bit发挥出最大信息密度和知识承载效率。同时,BitCPM-CANN提供的6倍显存优化,允许企业在不增加物理内存的情况下提升模型能力或服务密度。
值得一提的是,从最底层的量化算子、量化感知训练算法,到完整的并行策略和训练框架,BitCPM-CANN的整个训练链路均在华为昇腾上原生完成,包含0.5B、1B、3B、8B四个模型尺寸,与同尺寸MiniCPM-4全精度家族逐项对照评测,性能表现优异。这是昇腾平台上首个公开的、端到端完成1.58-bit训练并进行全精度对照评测的成果,且模型规模一次性推进至8B级别。
业内人士认为,BitCPM-CANN的发布与开源,实现了国产NPU、国产模型、国产训练框架的完整闭环,为端侧AI产业提供了直接可用的低比特模型方案。
