中国中昊芯英发布TPU芯片“须臾”，算力达896TFLOPS

2026-07-01 14:01

6月30日，中国中昊芯英发布新一代全自研高性能TPU AI专用算力芯片“须臾”，并同步推出软硬件一体化智算底座“泰则2.0”。“须臾”单芯片混合精度浮点算力达896TFLOPS，8-bit推理算力达1792TOPS，单卡额定功耗为600W。

“须臾”的技术定位集中在大模型训练、推理加速和高吞吐AI计算。TPU属于面向张量计算和矩阵运算的专用加速芯片，核心任务是提高深度学习模型在训练、推理和批量任务处理中的计算效率。与强调通用计算覆盖面的GPU不同，TPU更关注AI模型中的矩阵乘法、张量运算、算子调度和数据搬运效率。中昊芯英此次发布的“须臾”把混合精度浮点算力提升到896TFLOPS，8-bit推理算力提升到1792TOPS，说明其面向大语言模型、多模态模型和高并发推理场景进行了计算单元和数据通路升级。

这颗芯片是中昊芯英第二代TPU产品。“须臾”算力为上一代“刹那”的3倍，重点提升模型训练和推理中的计算吞吐。

大模型运行并不只依赖峰值算力，还受显存容量、片上缓存、芯片互联、通信带宽、算子库和软件框架影响。长上下文推理、多轮对话、智能体任务和批量生成会产生大量KV缓存、参数调用和中间数据传输，如果存储和互联能力不足，算力单元会被数据搬运拖慢。中昊芯英围绕“须臾”同步推出“泰则2.0”，说明其技术路线不是单独交付芯片，而是把芯片、加速卡、服务器、系统软件、算子库、集群调度和模型适配组成完整智算平台。这类平台能力会直接影响AI模型能否稳定运行在大规模算力集群中。

“泰则2.0”面向AI计算集群部署，承担软硬件协同作用。芯片负责底层计算，平台负责模型加载、任务调度、资源管理和运行维护。

模型生态适配是这次发布的另一个关键点。公开信息显示，“泰则2.0”面向PyTorch、vLLM、SGLang、DeepSpeed、Megatron-LM等工具和分布式训练、推理框架进行兼容，并适配Qwen、DeepSeek、GLM、MiniMAX等大语言模型和多模态模型。对AI芯片企业来说，硬件参数只是第一层能力，开发者能否快速迁移模型、算子能否稳定运行、推理框架能否高效调用、集群能否持续扩容，才决定芯片进入真实项目的速度。中昊芯英强调芯片IP核、专属指令集、底层算子加速库和整机系统软件均为自研，核心目标是降低模型迁移和算力部署中的适配成本。

工业AI、科研计算、政企智算中心和行业大模型平台，对算力系统的要求正在从“能跑模型”转向“长期稳定运行”。设备状态识别、工业视觉检测、知识库问答、工艺参数优化、研发辅助和预测性维护等任务，需要高吞吐推理，也需要稳定响应、能耗控制和可维护的软件环境。

“须臾”发布后，中昊芯英的TPU路线进入更高算力阶段。后续技术价值将主要取决于芯片量产能力、集群互联效率、软件栈成熟度、模型适配范围和真实场景运行表现。

中国

信息通信

本文来自全球互联网及战略合作伙伴信息的编译与转载,仅为读者提供交流,有侵权或其它问题请及时告之,本站将予以修改或删除,未经正式授权严禁转载本文。邮箱:news@wedoany.com

上一篇：防汛“最强大脑”GAST模型问世：30秒完成超300万单元洪涝预测

下一篇：突破启停调峰痛点！中国华能南山电厂6号机组解锁“零操作”与“深节能”