6月30日,中国中昊芯英发布新一代全自研高性能TPU AI专用算力芯片“须臾”,并同步推出软硬件一体化智算底座“泰则2.0”。“须臾”单芯片混合精度浮点算力达896TFLOPS,8-bit推理算力达1792TOPS,单卡额定功耗为600W。
“须臾”的技术定位集中在大模型训练、推理加速和高吞吐AI计算。TPU属于面向张量计算和矩阵运算的专用加速芯片,核心任务是提高深度学习模型在训练、推理和批量任务处理中的计算效率。与强调通用计算覆盖面的GPU不同,TPU更关注AI模型中的矩阵乘法、张量运算、算子调度和数据搬运效率。中昊芯英此次发布的“须臾”把混合精度浮点算力提升到896TFLOPS,8-bit推理算力提升到1792TOPS,说明其面向大语言模型、多模态模型和高并发推理场景进行了计算单元和数据通路升级。
这颗芯片是中昊芯英第二代TPU产品。“须臾”算力为上一代“刹那”的3倍,重点提升模型训练和推理中的计算吞吐。
大模型运行并不只依赖峰值算力,还受显存容量、片上缓存、芯片互联、通信带宽、算子库和软件框架影响。长上下文推理、多轮对话、智能体任务和批量生成会产生大量KV缓存、参数调用和中间数据传输,如果存储和互联能力不足,算力单元会被数据搬运拖慢。中昊芯英围绕“须臾”同步推出“泰则2.0”,说明其技术路线不是单独交付芯片,而是把芯片、加速卡、服务器、系统软件、算子库、集群调度和模型适配组成完整智算平台。这类平台能力会直接影响AI模型能否稳定运行在大规模算力集群中。
“泰则2.0”面向AI计算集群部署,承担软硬件协同作用。芯片负责底层计算,平台负责模型加载、任务调度、资源管理和运行维护。
模型生态适配是这次发布的另一个关键点。公开信息显示,“泰则2.0”面向PyTorch、vLLM、SGLang、DeepSpeed、Megatron-LM等工具和分布式训练、推理框架进行兼容,并适配Qwen、DeepSeek、GLM、MiniMAX等大语言模型和多模态模型。对AI芯片企业来说,硬件参数只是第一层能力,开发者能否快速迁移模型、算子能否稳定运行、推理框架能否高效调用、集群能否持续扩容,才决定芯片进入真实项目的速度。中昊芯英强调芯片IP核、专属指令集、底层算子加速库和整机系统软件均为自研,核心目标是降低模型迁移和算力部署中的适配成本。
工业AI、科研计算、政企智算中心和行业大模型平台,对算力系统的要求正在从“能跑模型”转向“长期稳定运行”。设备状态识别、工业视觉检测、知识库问答、工艺参数优化、研发辅助和预测性维护等任务,需要高吞吐推理,也需要稳定响应、能耗控制和可维护的软件环境。
“须臾”发布后,中昊芯英的TPU路线进入更高算力阶段。后续技术价值将主要取决于芯片量产能力、集群互联效率、软件栈成熟度、模型适配范围和真实场景运行表现。
