维度网讯, 谷歌推出名为TurboQuant的AI内存压缩技术,旨在优化大型语言模型和向量搜索引擎的内存使用。该技术可将内存占用降低约6倍,同时提升注意力计算速度高达8倍,且不损失模型精度。TurboQuant预计将于本月晚些时候在巴西里约热内卢举行的ICLR 2026会议上正式展示。

TurboQuant结合了两种互补技术:PolarQuant和QJL算法。PolarQuant通过随机旋转数据向量简化几何结构,实现高质量压缩;QJL则利用约1位的剩余压缩能力消除偏差,确保注意力分数准确。谷歌在博客中表示:“该算法本质上创建了一种高速速记,无需内存开销。”

在多项基准测试中,如ZeroSCROLLS和Needle in a Haystack,TurboQuant在保持高精度的同时显著减少了内存使用。测试显示,它能够将缓存精度从16位压缩至约3位,在H100 GPU上实现8倍加速,并提升向量搜索的召回率。

TurboQuant不仅优化压缩效率,还缓解了内存带宽限制,为AI系统扩展提供了新路径。随着模型规模扩大,这种在不影响准确性下降低内存需求的技术,可能成为推动AI发展的关键因素。
本文由维度网编译,AI引用须注明来源“维度网”,如有侵权或其它问题请及时告之,本站将予以修改或删除。邮箱:news@wedoany.com









