英伟达正通过软件模拟技术大幅提升人工智能加速器在科学计算领域的双精度浮点运算(FP64)性能。据The Register报道,其CUDA库已实现高达200万亿次浮点运算/秒(200 teraFLOPs)的模拟FP64矩阵性能,较Blackwell加速器硬件性能提升4.4倍。与此同时,英伟达发布Rubin GPU,其峰值FP64性能为33 teraFLOPs,虽较H100减少1 teraFLOPs,但通过模拟技术仍能满足部分高性能计算(HPC)需求。

英伟达超级计算产品高级总监Dan Ernst强调,模拟精度与张量核心硬件相当甚至更高,且通过补充算法解决了非数字(NaN)和无穷大等合规性问题。他指出,模拟主要惠及依赖密集通用矩阵乘法(DGEMM)的HPC应用,例如气候模拟和分子动力学。然而,AMD研究员Nicholas Malaya对此提出质疑,认为模拟在条件恶劣的数值系统(如材料科学模拟)中可能因误差累积导致结果偏差,且Ozaki方案会使内存消耗翻倍。Malaya补充道,英伟达的算法未完全遵循IEEE标准,例如未区分正零与负零,这可能影响关键科学计算场景的可靠性。
FP64因动态范围广(可表达超18.44万亿亿个唯一值),仍是科学计算的核心需求,而AI常用的FP8仅能表达256个值。现代GPU虽配备低精度张量核心(如Rubin的FP4计算能力达35 petaFLOPs),但其速度优势促使行业探索FP64模拟。Ernst承认模拟存在局限性,但认为多数HPC从业者更关注实际性能而非理论合规性。他以Rubin GPU为例,指出其22 TB/s HBM4内存可缓解向量FP64性能较慢的问题,在计算流体动力学等场景中仍具优势。
随着搭载Blackwell和Rubin GPU的超级计算机逐步落地,FP64模拟的实用性将面临检验。Malaya透露,AMD也在MI355X等芯片上测试软件模拟方案,并呼吁建立标准化测试套件以评估不同场景下的可靠性。这场技术路线之争,或将重塑未来HPC硬件与软件的协同发展模式。









