美国科技企业加速自研AI芯片，AWS每瓦性能提升4倍

2026-06-30 09:49

关键词:

维度网讯，随着具备自主判断与行动能力的“代理型AI”时代到来，全球AI基础设施市场的重心正从大规模“训练”快速转向实际服务所需的“推理”领域。在这一过程中，数据中心电力效率与总拥有成本（TCO）的重要性超越了单个芯片的绝对性能。为打破英伟达的市场主导地位，全球硬件厂商、科技巨头及韩国国产K-AI半导体企业正加速行动。

计算需求激增与英伟达GPU的垄断地位给企业带来成本压力，促使全球科技巨头开始自研针对其数据中心和服务优化的AI半导体。这些企业旨在构建涵盖芯片、服务器架构、网络及软件的全栈基础设施，以在实际运行环境中最大化“Token经济性”与“电力效率”。谷歌云（Google Cloud）已将自研AI半导体TPU升级至第六代“Trillium”，其计算性能与高带宽内存（HBM）容量较上一代大幅提升，用于支持大型模型“Gemini”的训练与推理，并通过谷歌云平台（GCP）向外部客户供应。微软（MS）为优化Azure云基础设施性价比，推出定制AI加速器“Maia”系列，该芯片基于与OpenAI的芯片设计合作关系，旨在降低运行Azure OpenAI服务（如ChatGPT）的运营成本。Meta正引入自研训练与推理加速器“MTIA”（Meta Training and Inference Accelerator），该芯片针对广告推荐算法与Feed排序引擎进行优化，以低功耗处理大规模计算，并已扩展至其开源大语言模型“Llama”系列的服务推理。

在科技巨头中，AWS采取双轨策略，一方面扩展自研芯片生态，另一方面维持与英伟达合作。AWS加速器业务已形成数十亿美元规模，并成为基础设施的核心层级，其完全托管生成式AI服务“Amazon Bedrock”中超过50%的Token在其自研加速芯片“Trainium”和“Inferentia”基础设施上运行。搭载16个芯片、可处理高达1万亿参数模型的“Trainium2”相比同类通用GPU实例提供30-40%更优性价比，其相关营收环比增长150%，并已赢得包括Anthropic合作建设的训练集群“Project Rainier”以及Apple、Uber、Databricks等公司作为生产合作伙伴。专用推理芯片“Inferentia”相比现有实例提供高达2.3倍吞吐量和高达70%更低推理成本。AWS已推出专为代理型AI与视频生成工作负载优化的“Trainium3”，其每瓦性能较上一代提升最多4倍，初步基准测试显示相比通用GPU训练可节省高达50%成本。结合最多144个Trainium3芯片的“EC2 Trn3 UltraServer”提供362 FP8 PFLOPs计算性能与20.7TB HBM3e内存，配合基于弹性结构适配器（EFA）的非阻塞Petabit级网络组成的“EC2 UltraCluster 3.0”，使数十万颗芯片如同单个加速器协同工作。2026年新推出的“Neuron Agentic Development”功能使AI编码代理自动将现有模型移植至Trainium，并执行数值一致性验证，消除了硬件迁移的障碍。

此外，科技巨头阵营通过开源软件联盟降低对英伟达“CUDA”的依赖。AWS主推开源“Neuron SDK”，该SDK基于开放标准XLA设计，与PyTorch、JAX、vLLM、Hugging Face等行业标准框架集成，使开发者能最小化代码修改地使用这些库。全球加速器市场正从通用硬件单一垄断进入架构多样性时代，科技巨头在自研硅芯片及全栈基础设施效率方面的竞争将因代理型AI与高容量媒体生成工作负载激增而更加激烈。

(来源: Pixabay)

AWS解决方案架构师李秀智就AI基础设施战略指出，AWS投资自研AI硅芯片并非仅替代特定硬件，而是为客户提供更好性价比与更广泛选择，形成加速计算正循环。只有多种架构共存于市场，才能通过竞争实现降价与性能改善。评估AI基础设施时，从加速器芯片到支撑它的服务器架构、连接大规模集群的网络，以及将硬件潜力发挥到极致的软件和托管服务，这些要素有机整合的全栈系统才是关键，才能降低TCO。在下一代AI环境中，“Token经济性”与“电力效率”管理将决定企业业务的生存。代理型AI可根据任务规划、编排、实时响应等需求，计算特性时刻变化，而数据中心电力作为有限资源，每瓦性能即能源效率将成为企业核心竞争力。

美国