多智能体为什么比单智能体强?Anthropic用90.2%的数据给了答案最

零重力瓦力 2026-06-02 16:56:10

多智能体为什么比单智能体强?Anthropic 用 90.2% 的数据给了答案

最近 Anthropic 发了一篇工程博文,详细拆解了自己的多智能体研究系统。结论挺炸裂的:用 Claude Opus 4 做主 orchestrator、Claude Sonnet 4 做子智能体,多智能体系统比单智能体 Claude Opus 4 单打独斗强了 90.2%。

不是提升 10%、20%,是 90%。这个数字让我们再次看到多智能体系统的强大威力。

先说他们怎么做的。架构很清晰,首先由一个主智能体(Lead Agent)来拆解问题、分配任务,多个子智能体(Subagents)并行执行。每个子智能体拿到的是明确的子目标、输出格式和工具指引,不是随便撒出去让它们自由发挥。比如一个研究任务,主智能体派出 10 个子智能体对 75 家公司进行研究、每个管 7-8 家,并行跑完再汇总。如果是单智能体的话,完全搞不定。 上下文窗口很快就会被撑爆、时间不够、也没法并行。

但代价是什么?多智能体消耗的 token 大约是普通单智能体的 15 倍。所以 Anthropic 自己也说:升级模型质量比翻倍 token 预算更管用。但不是智能体越多越好,对的架构+对的模型是关键。

Anthropic 还总结了五种多智能体协作模式:生成-验证(Generator-Verifier)、编排-子智能体(Orchestrator-Subagent)、智能体团队(Agent Teams)、消息总线(Message Bus)、共享状态(Shared State)。不是越复杂越好,简单任务用生成-验证就够了,搞一整套编排反而浪费。

再说几个已经落地的案例。InConcept Labs 团队用 n8n 一周之内搭了个客服 AI Agent,给在线教育平台自动处理邮件、基于知识库生成草稿回复,结果把客服工作量砍了 80%。n8n 本身不是什么新东西,但关键在于它把 AI agent 和 190K+ 社区工作流模板结合了起来,适合低代码加 AI 的场景。

Rene Zander 也分享了他用 n8n 给客户实际部署的 5 种生产级 AI Agent 工作流,每套都附带了节点图、Claude Prompt 和每一次的成本估算。不是玩具 demo,是真的跑在生产环境里的东西。他的判断很有参考价值:如果你要建真正的 AI agent 而不是调一次 GPT 就完事那种,n8n 是目前唯一在架构层面原生支持的。

开源这边,CAMEL-AI 的 OWL 项目在 GAIA Benchmark 上拿下了 69%(最难级别),58.18 分超越了 Manus。它用的是 Roleplaying 机制。就是让智能体之间模拟角色对话来协作,不是硬编排,而是让智能体自然交互。

不过也别太乐观。Ondrej Popelka 写了一篇 CrewAI 的实战评测,直接指出多智能体框架的真实问题:调试困难、Agent 有时会跳过步骤、结构化输出不稳定。他的建议很实在,简单任务别用 Agent,直接调 LLM API 就够了,多智能体只在你确实需要并行、需要分工明确的时候才值得。

我认为,多智能体确实有质的飞跃,但前提是你得搞清楚三件事。任务是否够复杂到需要并行?子智能体之间的边界是否清晰?你愿意承受 15 倍的 token 成本吗?如果这三个问题你都能答是,那值得搞。否则,一个强模型加好的提示词就足够了。

AI技术智能体智能体工程

0 阅读:2
零重力瓦力

零重力瓦力

感谢大家的关注