Gartner预测：2030年大型语言模型训练成本降低90%，推理成本或上升

2026-03-27 09:22

关键词:

美国研究机构Gartner近日发布报告预测，到2030年，大型语言模型（LLM）的训练成本将比去年降低90%，但总体推理成本预计会增加。这项研究聚焦于参数规模达一万亿的模型，最早于2022年开发，并考虑了AI令牌作为生成式AI模型处理的数据单元，每个令牌约3.5字节。

Gartner高级总监分析师Will Sommer表示：“这些成本改进将得益于半导体和基础设施效率提升、模型设计创新、芯片利用率提高、推理专用硅使用增加以及边缘设备在特定用例中的应用相结合。”他补充说，虽然令牌单位成本下降将支持更先进的生成式AI能力，但可能引发更高的令牌需求，导致总体推理成本上升。

Sommer指出：“首席产品官（CPO）不应将商品令牌的通缩与前沿推理的民主化混淆。随着商品化智能趋向接近零成本，支持高级推理所需的计算和系统仍然稀缺。今天用廉价令牌掩盖架构低效的CPO，明天会发现代理规模难以企及。”报告显示，企业需求代理驱动的前沿智能模型，每任务所需的令牌量比标准生成式AI聊天机器人多出高达30倍，因此令牌成本节省不会完全传递给客户。

Gartner的预测发布之际，由Google Cloud、IBM、Red Hat和Nvidia支持的AI推理开放标准LL-D被提交给Linux基金会。该标准基于预集成、Kubernetes原生的分布式推理框架，利用键值缓存（KV缓存）等元素记录模型先前交互的令牌，避免重复激活GPU，从而节省成本。Red Hat AI高级首席技术专家Robbie Jerrom告诉SDxCentral：“如果你随时间累积大量用户响应，可以实现高达80-88%的缓存命中率，这降低了成本，但更重要的是提高了性能，而且我们可以在多个模型间共享该缓存。”

亚马逊网络服务（AWS）全球技术、AI和分析主管Ishit Vachhrajani补充说，推理成本将下降10倍，这一变化已在当前AI热潮中开始。他表示：“我们正处于智能成本下降和智能水平上升的阶段。我认为这对于许多、许多用例来说是一个最佳时机，可以开始以成本高效的方式利用AI。”同时，Google的TurboQuant压缩算法最近成为头条新闻，声称可以将KV缓存内存减少至少6倍，该解决方案压缩AI模型的同时保持核心结构，无需预处理或特定校准数据。

美国