美国研究机构Gartner近日发布报告预测,到2030年,大型语言模型(LLM)的训练成本将比去年降低90%,但总体推理成本预计会增加。这项研究聚焦于参数规模达一万亿的模型,最早于2022年开发,并考虑了AI令牌作为生成式AI模型处理的数据单元,每个令牌约3.5字节。

Gartner高级总监分析师Will Sommer表示:“这些成本改进将得益于半导体和基础设施效率提升、模型设计创新、芯片利用率提高、推理专用硅使用增加以及边缘设备在特定用例中的应用相结合。”他补充说,虽然令牌单位成本下降将支持更先进的生成式AI能力,但可能引发更高的令牌需求,导致总体推理成本上升。
Sommer指出:“首席产品官(CPO)不应将商品令牌的通缩与前沿推理的民主化混淆。随着商品化智能趋向接近零成本,支持高级推理所需的计算和系统仍然稀缺。今天用廉价令牌掩盖架构低效的CPO,明天会发现代理规模难以企及。”报告显示,企业需求代理驱动的前沿智能模型,每任务所需的令牌量比标准生成式AI聊天机器人多出高达30倍,因此令牌成本节省不会完全传递给客户。
Gartner的预测发布之际,由Google Cloud、IBM、Red Hat和Nvidia支持的AI推理开放标准LL-D被提交给Linux基金会。该标准基于预集成、Kubernetes原生的分布式推理框架,利用键值缓存(KV缓存)等元素记录模型先前交互的令牌,避免重复激活GPU,从而节省成本。Red Hat AI高级首席技术专家Robbie Jerrom告诉SDxCentral:“如果你随时间累积大量用户响应,可以实现高达80-88%的缓存命中率,这降低了成本,但更重要的是提高了性能,而且我们可以在多个模型间共享该缓存。”
亚马逊网络服务(AWS)全球技术、AI和分析主管Ishit Vachhrajani补充说,推理成本将下降10倍,这一变化已在当前AI热潮中开始。他表示:“我们正处于智能成本下降和智能水平上升的阶段。我认为这对于许多、许多用例来说是一个最佳时机,可以开始以成本高效的方式利用AI。”同时,Google的TurboQuant压缩算法最近成为头条新闻,声称可以将KV缓存内存减少至少6倍,该解决方案压缩AI模型的同时保持核心结构,无需预处理或特定校准数据。









