罗福莉谈MiMo降价背后,仍有2-3倍利润空间

智能机器之心 2026-05-28 15:38:39
罗福莉透露,在 API 价格对齐 DeepSeek 后,小米的高负载推理引擎仍能保持盈亏平衡。成本降低主要来自混合注意力架构与层次化 KV 缓存优化。 针对缓存命中(Cache Hit)成本降低 99% 的设计目标,小米推理框架实现了针对滑动窗口注意力 SWA 的层次化 KV 缓存优化。 生产测试显示,层次化优化将缓存的 token 容量提升至 5 倍,降低了 80% 的缓存成本。 结合全局注意力模块之间的缓存读取重叠(Cache Read Overlap)技术,系统进一步压低了缓存命中的实际开销。 成本削减 60%-80%, 靠的是 1:7 的稀疏架构。70 层的模型,其实只有 10 层在全力通读长文本,另外 60 层在「滑动窗口」看局部。脑力用得少,服务器电费和算力费就省下来了。 不敢想,没降价之前,模型厂商可以用“秒进斗金”来形容嘛....

0 阅读:0
智能机器之心

智能机器之心

感谢大家的关注