AI

请登录登录

谷歌 TurboQuant 算法：键值缓存内存压缩 6 倍、速度提 8 倍零损！

PConline 2026-03-26 17:22:00

7X24小时AI快讯

由华为云驱动

近日，谷歌研究团队推出向量量化压缩算法TurboQuant。该算法通过PolarQuant与QJL技术，将大语言模型推理时的键值缓存内存需求减少至少6倍，在Nvidia H100 GPU上注意力计算速度最高提升8倍且零精度损失。它采用两阶段无训练压缩框架，相关论文已在ICLR2026等会议阐述，代码有望逐步开源。

谷歌研究团队推出全新向量量化压缩算法TurboQuant，通过PolarQuant与QJL技术，将大语言模型推理时的键值缓存内存需求减少至少6倍，在Nvidia H100 GPU上注意力计算速度最高提升8倍，且零精度损失。LLM处理长序列时，KV Cache内存消耗大，传统量化方法有额外开销。

这背后，TurboQuant采用两阶段无训练压缩框架，PolarQuant省去边界归一化存储开销，QJL实现零额外内存开销的误差修正，将KV Cache压缩至约3 - bit级别。该技术在开源模型和向量数据集上表现出色，相关论文已在ICLR2026等会议阐述，代码有望逐步开源。

点击展开全文

网友评论

聚超值推荐

中兴（ZTE）F30 Pro 随身wifi6免插卡移动wifi无线网卡便携式热点4g路由器无限笔记本电脑通用流量2025款 ￥48.9 ￥48.9

【非割韭菜版】ipad磁吸保护套 券后省7.8 ￥50.2 ￥78

￥6.7 ￥6.7

【无笔槽可拆卸】ipad保护套 券后省4 ￥25.8 ￥39.8

嘉柏兰【国家3C认证丨20000毫安丨可上飞机】顶配版超级快充迷你大容量充电宝移动电源 20000毫安顶配版 月销2000+ ￥58 ￥58

乔锐斯随身wifi【新疆西藏云南广西可用】2026款全国通用5ghz无限流量便携充电宝二合一无线网络移动wifi 【10000毫安】新疆西藏云南用移动-内地三网通 每满200减30 ￥78 ￥78

品胜【3C认证可上飞机】充电宝自带双线20000毫安大容量22.5W快充移动电源适用苹果17promax小米华为白 月销4000+ ￥79.9 ￥79.9

vivo iQOO Z10 Turbo 12GB+256GB 云海白天玑8400满血版 7620mAh超薄蓝海电池手机国家补贴 月销4w+ ￥1798 ￥1798

闪魔适用iPad pro钢化膜2026/25/22款air8/7/6/5保护膜11/12.9/13英寸高清抗蓝光平板膜【加强版电镀双倍抗指纹】 2018/20/21/22款 pro 11英寸 ￥26 ￥26

相关推荐

小米叫板Claude：MiMo-V2三巨头，智能体时代的王炸组合 AI 资讯

小米叫板Claude：MiMo-V2三巨头，智能体时代的王炸组合

从工具到员工：用 DGX Spark 构建全天候运转的本地 AI 工厂 AI 资讯

从工具到员工：用 DGX Spark 构建全天候运转的本地 AI 工厂

腾讯元宝AI换拟人化Logo，混元3.0部署将提升用户体验！ AI 资讯

腾讯元宝AI换拟人化Logo，混元3.0部署将提升用户体验！

速来！小米MiMo大模型联合五框架首周API免费，开发超便捷 AI 资讯

速来！小米MiMo大模型联合五框架首周API免费，开发超便捷

Google用AI改写网页标题实验引关注，网站主忧虑内容展示失控 AI 资讯

Google用AI改写网页标题实验引关注，网站主忧虑内容展示失控

Claude重磅升级可操控电脑，OpenClaw架构更新谁能更胜一筹？ AI 资讯

Claude重磅升级可操控电脑，OpenClaw架构更新谁能更胜一筹？

Cursor Composer 2编码能力超Claude Opus 4.6，或冲击AI编码市场！ AI 资讯

Cursor Composer 2编码能力超Claude Opus 4.6，或冲击AI编码市场！

台积电魏哲家评大陆机器人是花架子，95%机器人大脑芯片由其代工 AI 资讯

台积电魏哲家评大陆机器人是花架子，95%机器人大脑芯片由其代工

全球第三！微软二代生图模型MAI - Image - 2免费试用来袭 AI 资讯

全球第三！微软二代生图模型MAI - Image - 2免费试用来袭

具身智能EAI - 100榜单揭晓！蚂蚁灵波模型与科学家双双上榜 AI 资讯

具身智能EAI - 100榜单揭晓！蚂蚁灵波模型与科学家双双上榜

相关产品