混合量子计算有望突破早期量子机器的能力限制,但经典计算机处理和精炼量子结果所需时间往往远超量子实验本身,成为关键瓶颈。

IBM研究人员及其合作伙伴的两项新研究显示,这一瓶颈正被打破。研究聚焦基于样本的量子对角化方法,即SQD,这是一种用于量子化学和材料科学的混合计算技术。SQD依赖量子处理器生成电子构型样本,经典系统则筛选结果并进行数值计算以精炼答案,其中经典后处理成为主要成本。
两项论文报告了将混合量子算法中最耗时的经典步骤转移到现代图形处理器上带来的显著性能提升。计算时间从数小时缩短至数分钟,使经典运行时间更接近量子执行速度。研究结果指向混合量子工作负载工程方式的转变,将GPU定位为核心基础设施。
在SQD中,量子处理器从编码分子电子信息的量子电路中采样,产生候选构型。经典计算机构建分子简化数学模型,使用迭代方法求解能量。该步骤涉及将称为哈密顿量的大型数学算子重复应用于表示电子态的向量,即使不存储完整算子,评估效果也可能需要数十亿次计算。
早期大规模SQD演示依赖包括日本“富岳”系统在内的大型基于CPU的超级计算机,需要大量计算资源和长时间运行。而当前最快超级计算机已转向GPU加速设计,如Frontier和Aurora系统依赖数千个GPU提供峰值性能。
IBM东京研究院与日本理化学研究所合作的研究专注于对SQD中对角化步骤进行GPU原生重新设计。团队重写了最耗时的部分,重组电子构型在内存中的存储方式,展平嵌套数据结构并重构循环,以暴露适合数千个GPU线程的细粒度并行性。在现代GPU集群测试中,与CPU执行相比,该方法在对角化步骤上实现高达约40倍的加速。
美国IBM研究院与AMD和橡树岭国家实验室合作的研究从不同角度审视相同挑战,使用现代OpenMP卸载技术将SQD中计算最密集部分转移到GPU上,同时保持更广泛代码库完整。在橡树岭Frontier超级计算机上的基准测试显示,每个节点实现约95倍的加速,将代表性分子系统的对角化时间从数小时减少到数分钟。
像SQD这样的混合算法设计在当前量子硬件限制内工作,其价值取决于运行多次迭代。如果经典侧速度慢,反馈循环就会停滞。通过缩短经典运行时间以匹配甚至低于量子执行时间,新方法使得运行更多迭代、探索更大构型空间以及研究更复杂分子成为可能,可扩大量子化学在催化、材料设计和能源研究等领域的实际应用范围。
这些研究还突显了剩余的约束。GPU内存限制仍然限制了可以有效处理的问题规模,并且这些方法依赖于拥有足够的并行工作来保持数千个GPU线程繁忙。较小的系统可能仍然在CPU上运行更有效。









