谷歌新算法TurboQuant,可以在不牺牲AI模型性能的前提下显著缓解

三金笑说商业 2026-03-25 13:35:42

谷歌新算法 TurboQuant,可以在不牺牲 AI 模型性能的前提下显著缓解 kv 缓存瓶颈,这对所有依赖压缩的应用场景,尤其是搜索和人工智能领域,可能产生深远影响。

KV Cache 瓶颈:大模型推理时,Key-Value Cache 占用巨量内存。比如长上下文场景,KV Cache 可能比模型权重还大。

传统向量量化的缺陷:常规方法需要对每个数据块计算和存储"量化常数",这带来 1-2 bits 的额外内存开销,部分抵消了压缩收益。

TurboQuant 是一个零精度损失的极端压缩算法,能把 KV Cache 压缩到 3 bits(传统是 16/32 bits),同时:

- 无需训练或微调- 推理速度比原始模型还快(H100 上最高 8倍加速)- 内存减少 6倍以上

工作原理:

两个关键步骤

1. 高质量压缩(PolarQuant 方法):TurboQuant 首先对数据向量进行随机旋转。这一巧妙步骤简化了数据的几何结构,使得能够轻松地对向量的每个部分单独应用标准的高质量量化器(一种将大量连续值——如精确小数——映射到较小的离散符号或数字集合的工具,例如整数:音频量化和 JPEG 压缩就是典型应用)。第一阶段利用绝大部分压缩能力(占用主要比特位)来捕捉原始向量的核心概念与强度。

2. 消除隐藏误差:TurboQuant 运用微量的剩余压缩能力(仅 1bit)对第一阶段残留的微小误差实施 QJL 算法。QJL 阶段如同数学误差校验器,通过消除偏差来获得更精确的注意力分数。

链接:research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression

0 阅读:2
三金笑说商业

三金笑说商业

感谢大家的关注