人工智能推理领域的领导者 Groq 宣布与 Meta 合作,为官方 Llama API 提供快速推理功能,为开发人员提供运行最新 Llama 模型的最快、最具成本效益的方式。

现已推出预览版的 Llama 4 API 模型,由 Groq 加速,将在全球最高效的推理芯片 Groq LPU 上运行。这意味着开发者可以运行 Llama 模型,无需任何权衡:低成本、快速响应、可预测的低延迟以及针对生产工作负载的可靠扩展。
Groq 和 Meta 宣布以最快、成本最低的方式运行世界上最值得信赖的公开模型。
与通用 GPU 堆栈不同,Groq 垂直集成,只用于一项任务:推理。越来越多的构建者转向 Groq,因为从定制芯片到云交付,每一层都经过精心设计,旨在提供一致的速度和成本效益,且不打折扣。
Llama API 是 Meta 公开模型的第一方访问点,针对生产用途进行了优化。
借助 Groq 基础架构,开发人员可以获得:
吞吐量高达 625 个令牌/秒
入门难度极小——只需三行代码即可从 OpenAI 迁移
无需冷启动、无需调整、无 GPU 开销
财富 500 强公司和超过 140 万开发人员已经使用 Groq 构建具有速度、可靠性和规模的实时 AI 应用程序。
Llama API 现已可供部分开发人员预览,并计划在未来几周内进行更广泛的推广。









