罗福莉透露,在 API 价格对齐 DeepSeek 后,小米的高负载推理引擎仍能保持盈亏平衡。成本降低主要来自混合注意力架构与层次化 KV 缓存优化。
针对缓存命中(Cache Hit)成本降低 99% 的设计目标,小米推理框架实现了针对滑动窗口注意力 SWA 的层次化 KV 缓存优化。
生产测试显示,层次化优化将缓存的 token 容量提升至 5 倍,降低了 80% 的缓存成本。
结合全局注意力模块之间的缓存读取重叠(Cache Read Overlap)技术,系统进一步压低了缓存命中的实际开销。
成本削减 60%-80%, 靠的是 1:7 的稀疏架构。70 层的模型,其实只有 10 层在全力通读长文本,另外 60 层在「滑动窗口」看局部。脑力用得少,服务器电费和算力费就省下来了。
不敢想,没降价之前,模型厂商可以用“秒进斗金”来形容嘛....

