如今,人工智能(AI)系统发展面临规模挑战,内存需求庞大,以确保处理芯片能快速共享数据。传统GPU因最初设计目的并非针对AI模型,在支撑大型语言模型(LLM)时,需多个GPU通过高速网络连接,数据传输速度慢、能耗高。

为突破GPU瓶颈,加州Cerebras等公司研发出晶圆级处理器,这种芯片面积大,包含海量片上内存和数十万个核心。然而,仅有晶圆级芯片不够,还需专门软件系统。爱丁堡大学和微软研究院合作研发的WaferLLM,旨在晶圆级芯片上高效运行大规模LLM。
WaferLLM设计了三种新算法,将大型数学运算分解成更小部分,让相邻核心一起处理,信息本地传输,避免长距离通信降低速度。同时,引入新策略,将LLM不同部分分布到数十万个内核上,协调处理和通信,确保芯片高效运行。这些调整在爱丁堡国际数据中心测试,使晶圆级芯片生成文本速度提升约100倍,与16个GPU集群相比,延迟降低十倍,能效提高一倍。
尽管GPU拥有成熟软件生态系统支持,但晶圆级芯片更适用于依赖超低延迟、超大型模型或高能效的工作负载。与此同时,GPU技术也在不断进步。更广泛的启示是,人工智能基础设施正成为协同设计问题,硬件和软件需同步演进,重新思考软件栈对释放下一代人工智能性能至关重要。对公众而言,人工智能系统将支持更多此前运行速度慢或成本高的应用,晶圆级计算转变标志着人工智能进入新阶段。
















京公网安备 11010802043282号