维度网讯,随着具备自主判断与行动能力的“代理型AI”时代到来,全球AI基础设施市场的重心正从大规模“训练”快速转向实际服务所需的“推理”领域。在这一过程中,数据中心电力效率与总拥有成本(TCO)的重要性超越了单个芯片的绝对性能。为打破英伟达的市场主导地位,全球硬件厂商、科技巨头及韩国国产K-AI半导体企业正加速行动。
计算需求激增与英伟达GPU的垄断地位给企业带来成本压力,促使全球科技巨头开始自研针对其数据中心和服务优化的AI半导体。这些企业旨在构建涵盖芯片、服务器架构、网络及软件的全栈基础设施,以在实际运行环境中最大化“Token经济性”与“电力效率”。谷歌云(Google Cloud)已将自研AI半导体TPU升级至第六代“Trillium”,其计算性能与高带宽内存(HBM)容量较上一代大幅提升,用于支持大型模型“Gemini”的训练与推理,并通过谷歌云平台(GCP)向外部客户供应。微软(MS)为优化Azure云基础设施性价比,推出定制AI加速器“Maia”系列,该芯片基于与OpenAI的芯片设计合作关系,旨在降低运行Azure OpenAI服务(如ChatGPT)的运营成本。Meta正引入自研训练与推理加速器“MTIA”(Meta Training and Inference Accelerator),该芯片针对广告推荐算法与Feed排序引擎进行优化,以低功耗处理大规模计算,并已扩展至其开源大语言模型“Llama”系列的服务推理。
在科技巨头中,AWS采取双轨策略,一方面扩展自研芯片生态,另一方面维持与英伟达合作。AWS加速器业务已形成数十亿美元规模,并成为基础设施的核心层级,其完全托管生成式AI服务“Amazon Bedrock”中超过50%的Token在其自研加速芯片“Trainium”和“Inferentia”基础设施上运行。搭载16个芯片、可处理高达1万亿参数模型的“Trainium2”相比同类通用GPU实例提供30-40%更优性价比,其相关营收环比增长150%,并已赢得包括Anthropic合作建设的训练集群“Project Rainier”以及Apple、Uber、Databricks等公司作为生产合作伙伴。专用推理芯片“Inferentia”相比现有实例提供高达2.3倍吞吐量和高达70%更低推理成本。AWS已推出专为代理型AI与视频生成工作负载优化的“Trainium3”,其每瓦性能较上一代提升最多4倍,初步基准测试显示相比通用GPU训练可节省高达50%成本。结合最多144个Trainium3芯片的“EC2 Trn3 UltraServer”提供362 FP8 PFLOPs计算性能与20.7TB HBM3e内存,配合基于弹性结构适配器(EFA)的非阻塞Petabit级网络组成的“EC2 UltraCluster 3.0”,使数十万颗芯片如同单个加速器协同工作。2026年新推出的“Neuron Agentic Development”功能使AI编码代理自动将现有模型移植至Trainium,并执行数值一致性验证,消除了硬件迁移的障碍。
此外,科技巨头阵营通过开源软件联盟降低对英伟达“CUDA”的依赖。AWS主推开源“Neuron SDK”,该SDK基于开放标准XLA设计,与PyTorch、JAX、vLLM、Hugging Face等行业标准框架集成,使开发者能最小化代码修改地使用这些库。全球加速器市场正从通用硬件单一垄断进入架构多样性时代,科技巨头在自研硅芯片及全栈基础设施效率方面的竞争将因代理型AI与高容量媒体生成工作负载激增而更加激烈。

AWS解决方案架构师李秀智就AI基础设施战略指出,AWS投资自研AI硅芯片并非仅替代特定硬件,而是为客户提供更好性价比与更广泛选择,形成加速计算正循环。只有多种架构共存于市场,才能通过竞争实现降价与性能改善。评估AI基础设施时,从加速器芯片到支撑它的服务器架构、连接大规模集群的网络,以及将硬件潜力发挥到极致的软件和托管服务,这些要素有机整合的全栈系统才是关键,才能降低TCO。在下一代AI环境中,“Token经济性”与“电力效率”管理将决定企业业务的生存。代理型AI可根据任务规划、编排、实时响应等需求,计算特性时刻变化,而数据中心电力作为有限资源,每瓦性能即能源效率将成为企业核心竞争力。









