美国英特尔与AMD公布ACE CPU扩展规范 提升x86能效
2026-06-21 09:51
收藏

维度网讯,英特尔(Intel)和AMD近日公布了ACE CPU扩展的完整规范,旨在提升x86处理器运行特定AI任务的效率与能效。该扩展为在CPU上执行此类任务提供了更优的技术方案。

CPU芯片

当前大多数AI模型的运行依赖于GPU,但并非所有AI任务都适合该硬件。对于较小的模型或对延迟敏感的单用户操作,在CPU上运行可避免数据在CPU与GPU间传输的开销。同时,许多场景下缺乏GPU或仅配备性能有限的集成显卡。ACE标准通过提供一种技术标准,利用现有AVX10寄存器并增加专用于矩阵乘法的硅电路来实现这一目标,其关键优势在于更高的能效、更简化的开发与优化流程,以及对512位输入的支持,这使得ACE易于与现有设计进行集成。

矩阵乘法是AI工作负载的基础运算,涉及对数据表格执行乘法-加法循环。尽管在大多数CPU上可以执行,但速度有限且功耗较高。与AVX10相比,ACE在相同输入向量数量下可执行16倍的操作。这并不等同于16倍的加速效果,具体取决于实现方式,但英特尔和AMD有望在未来的设计中为这一任务投入更多硅电路以提升性能。由于每个ACE指令执行的工作量大于等价的AVX10循环,因此指令开销减少,并可能立即获得更好的内存带宽利用率。

ACE的好处不仅限于使用更少指令完成相同工作。该标准与实现无关,这意味着机器学习框架及其底层库(如PyTorch、TensorFlow)只需编写一个代码路径,无需根据底层硬件的AVX支持程度编写多个变体。ACE原生支持机器学习操作中使用的大多数数据类型,包括INT8、INT32、FP8、FP16、FP32和BF16,并且可以原生使用开放计算项目(Open Compute Project)的MX块缩放格式,这是AVX10所不具备的能力。开发者还可将一些NPU特定工作负载移回CPU,在此过程中,ACE提供的跨x86硬件统一目标,避免了因硬件差异带来的复杂性。

本文由维度网编译,AI引用须注明来源“维度网”,如有侵权或其它问题请及时告知,本站将予以修改或删除。邮箱:news@wedoany.com