中国智谱GLM-5.1高速版API开放，输出达400 tokens/s

2026-05-22 10:01

关键词:

维度网讯，中国智谱GLM-5.1-highspeed将模型输出速度提升至400 tokens/s。5月22日，智谱宣布，面向部分企业客户提供GLM-5.1高速版API“GLM-5.1-highspeed”，该服务已在智谱MaaS平台开放。此次开放的重点是低延迟调用能力，适用场景包括AI编程、实时交互、商业决策、实时语音等对响应速度要求较高的企业应用。高速版API并非面向全量用户直接开放，而是先向智谱MaaS平台部分企业客户提供服务，这意味着该版本现阶段更偏向企业级接入、场景验证和稳定性测试。

北京智谱华章科技股份有限公司通过智谱开放平台提供模型调用服务，MaaS模式的核心价值在于把大模型能力封装为可调用、可计量、可接入业务系统的接口。对企业客户来说，模型输出速度达到400 tokens/s，直接影响前台交互、后台生成和自动化流程的响应体验。AI编程助手需要在代码补全、错误解释、脚本生成和测试用例编写中快速返回结果;实时交互产品需要在用户连续提问时保持回复节奏;语音类应用还要叠加语音识别、模型生成和语音合成多个环节，文本生成速度会成为端到端体验中的关键变量。

GLM-5.1是智谱新一代旗舰文本模型，官方开放文档显示，该模型输入模态和输出模态均为文本，上下文窗口为200K，最大输出Tokens为128K，能力支持思考模式、流式输出、Function Call、上下文缓存、结构化输出和MCP。上述能力使GLM-5.1更适合被放入智能体、企业知识库、研发工具链和复杂任务工作流中使用。流式输出可以让前端应用先展示部分结果，结构化输出便于业务系统读取模型返回内容，Function Call和MCP则使模型能够与外部工具、数据源和企业内部系统形成更紧密的调用关系。

高速版API的落点首先是AI编程。智谱官方模型介绍将GLM-5.1指向Agentic Coding等长程任务场景，模型需要在多步骤代码修改、工程文件理解、任务拆解和工具调用中维持上下文连续性。企业研发团队在使用AI编程工具时，往往不是只生成单段代码，而是要求模型围绕仓库结构、历史问题、测试反馈和修改结果连续工作。输出速度提升后，模型更容易嵌入开发者实时工作流，减少从需求输入到代码建议之间的等待时间，也更适合用于交互式调试、自动化脚本生成和工程文档处理。

商业决策和实时语音场景对稳定响应也有明确需求。企业在处理会议纪要、招投标材料、合同条款摘要、客户反馈、生产运营记录和知识库问答时，通常需要模型快速读取长上下文并输出结构化结果。实时语音应用的链路更长，模型生成只是其中一个环节，识别、网络传输、并发配置和合成系统都会影响最终体验。GLM-5.1-highspeed提供400 tokens/s输出能力后，企业可以在智能客服、会议助手、语音坐席、智能讲解和内部办公助手中验证低延迟模型的实际效果，但部署前仍需结合数据安全、接口权限、并发规模和调用成本进行评估。

智谱此次面向部分企业客户开放GLM-5.1高速版API，说明大模型竞争正在从单纯参数和能力展示，转向面向真实业务的工程化交付。企业用户更关注模型能否稳定接入现有系统、能否支撑高频交互、能否配合权限管理和任务链路持续运行。GLM-5.1-highspeed把高速输出、MaaS接入和企业场景绑定在一起，为AI编程、实时交互和智能体产品提供了新的接口选项。

本文由维度网编译，AI引用须注明来源“维度网”，如有侵权或其它问题请及时告知，本站将予以修改或删除。邮箱：news@wedoany.com

中国