AI

谷歌 TurboQuant 算法:键值缓存内存压缩 6 倍、速度提 8 倍零损!

PConline 2026-03-26 17:22:00
7X24小时AI快讯
由华为云驱动

近日,谷歌研究团队推出向量量化压缩算法TurboQuant。该算法通过PolarQuant与QJL技术,将大语言模型推理时的键值缓存内存需求减少至少6倍,在Nvidia H100 GPU上注意力计算速度最高提升8倍且零精度损失。它采用两阶段无训练压缩框架,相关论文已在ICLR2026等会议阐述,代码有望逐步开源。

谷歌研究团队推出全新向量量化压缩算法TurboQuant,通过PolarQuant与QJL技术,将大语言模型推理时的键值缓存内存需求减少至少6倍,在Nvidia H100 GPU上注意力计算速度最高提升8倍,且零精度损失。LLM处理长序列时,KV Cache内存消耗大,传统量化方法有额外开销。

这背后,TurboQuant采用两阶段无训练压缩框架,PolarQuant省去边界归一化存储开销,QJL实现零额外内存开销的误差修正,将KV Cache压缩至约3 - bit级别。该技术在开源模型和向量数据集上表现出色,相关论文已在ICLR2026等会议阐述,代码有望逐步开源。

点击展开全文
打开APP,阅读体验更佳

网友评论

聚超值推荐

更多优惠

相关推荐

相关产品
取消