为什么都说 Claude 贵,但又都说好?
⸻这几天准备把Openclaw分层引入不同的token调用,发现大家一致觉得 Claude 最强悍,但价格又确实贵。
发现最直接的原因就是,Claude 选择的是 Dense 架构,而不是 MoE 架构。
当前主流大模型,大致分两种架构:1、Dense(稠密模型):每一次推理,模型的全部参数都会参与计算。2、MoE(专家混合):模型里有很多专家,每个 token 只激活一小部分。
Claude一直是 Dense 架构,而大家熟悉的Deepseek V3、GPT-4、Grok、Gemini等等几乎都是 MoE架构。
那 Claude 为什么不选 MoE?
因为 Anthropic 优先解决的不是“规模问题”,而是: • 推理是否稳定 • 行为是否可预测 • 长对话中是否一致 • 对齐是否可控
而这些,Dense架构 天然更有优势。
MoE 在工程上非常聪明,但它引入了一个额外的不确定性: • 不同专家学到不同风格 • 路由本身是隐含决策层 • 行为分布更离散
在复杂、长链条推理里,这些差异会被放大。
MoE 在解决“规模和成本”,Claude 在解决“连续性和可靠性”。
虽然说这是一个技术取舍问题,但也说明了“贵有贵的道理”。。。