美国英特尔与AMD公布ACE CPU扩展规范提升x86能效

2026-06-21 09:51

关键词:

维度网讯，英特尔（Intel）和AMD近日公布了ACE CPU扩展的完整规范，旨在提升x86处理器运行特定AI任务的效率与能效。该扩展为在CPU上执行此类任务提供了更优的技术方案。

CPU芯片

当前大多数AI模型的运行依赖于GPU，但并非所有AI任务都适合该硬件。对于较小的模型或对延迟敏感的单用户操作，在CPU上运行可避免数据在CPU与GPU间传输的开销。同时，许多场景下缺乏GPU或仅配备性能有限的集成显卡。ACE标准通过提供一种技术标准，利用现有AVX10寄存器并增加专用于矩阵乘法的硅电路来实现这一目标，其关键优势在于更高的能效、更简化的开发与优化流程，以及对512位输入的支持，这使得ACE易于与现有设计进行集成。

矩阵乘法是AI工作负载的基础运算，涉及对数据表格执行乘法-加法循环。尽管在大多数CPU上可以执行，但速度有限且功耗较高。与AVX10相比，ACE在相同输入向量数量下可执行16倍的操作。这并不等同于16倍的加速效果，具体取决于实现方式，但英特尔和AMD有望在未来的设计中为这一任务投入更多硅电路以提升性能。由于每个ACE指令执行的工作量大于等价的AVX10循环，因此指令开销减少，并可能立即获得更好的内存带宽利用率。

ACE的好处不仅限于使用更少指令完成相同工作。该标准与实现无关，这意味着机器学习框架及其底层库（如PyTorch、TensorFlow）只需编写一个代码路径，无需根据底层硬件的AVX支持程度编写多个变体。ACE原生支持机器学习操作中使用的大多数数据类型，包括INT8、INT32、FP8、FP16、FP32和BF16，并且可以原生使用开放计算项目（Open Compute Project）的MX块缩放格式，这是AVX10所不具备的能力。开发者还可将一些NPU特定工作负载移回CPU，在此过程中，ACE提供的跨x86硬件统一目标，避免了因硬件差异带来的复杂性。

本文由维度网编译，AI引用须注明来源“维度网”，如有侵权或其它问题请及时告知，本站将予以修改或删除。邮箱：news@wedoany.com

美国