谷歌新算法TurboQuant，可以在不牺牲AI模型性能的前提下显著缓解

谷歌新算法 TurboQuant，可以在不牺牲 AI 模型性能的前提下显著缓解 kv 缓存瓶颈，这对所有依赖压缩的应用场景，尤其是搜索和人工智能领域，可能产生深远影响。

KV Cache 瓶颈：大模型推理时，Key-Value Cache 占用巨量内存。比如长上下文场景，KV Cache 可能比模型权重还大。

传统向量量化的缺陷：常规方法需要对每个数据块计算和存储"量化常数"，这带来 1-2 bits 的额外内存开销，部分抵消了压缩收益。

TurboQuant 是一个零精度损失的极端压缩算法，能把 KV Cache 压缩到 3 bits（传统是 16/32 bits），同时：

- 无需训练或微调- 推理速度比原始模型还快（H100 上最高 8倍加速）- 内存减少 6倍以上

工作原理：

两个关键步骤

1. 高质量压缩（PolarQuant 方法）：TurboQuant 首先对数据向量进行随机旋转。这一巧妙步骤简化了数据的几何结构，使得能够轻松地对向量的每个部分单独应用标准的高质量量化器（一种将大量连续值——如精确小数——映射到较小的离散符号或数字集合的工具，例如整数：音频量化和 JPEG 压缩就是典型应用）。第一阶段利用绝大部分压缩能力（占用主要比特位）来捕捉原始向量的核心概念与强度。

2. 消除隐藏误差：TurboQuant 运用微量的剩余压缩能力（仅 1bit）对第一阶段残留的微小误差实施 QJL 算法。QJL 阶段如同数学误差校验器，通过消除偏差来获得更精确的注意力分数。

链接：research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression