ClawBrain Benchmark

测试你的 AI 在 OpenClaw 中的真实表现。看看它做简单事行不行，做复杂事会不会掉链子。

使用方法

直接说"跑一下 benchmark"或"测试一下模型效果"。

10 大类、205 个真实场景：

ClawBrain 通过编排引擎实现：主动思考→多模型协作→输出验证→错误恢复，综合表现超越任何单模型。

完整报告：https://clawbrain.dev/blog/openclaw-model-comparison

版本历史

共 1 个版本

v1.0.2 当前

2026-05-03 08:09 安全安全

安全检测

安全，无风险

查看报告

安全，无风险

查看报告

🔗 相关推荐

ai-agent

pskoett

捕获经验教训、错误及修正内容，以实现持续改进。适用于以下场景：（1）命令或操作意外失败；（2）用户纠正Claude（如“不，那不对……”“实际上……”）；（3）用户请求的功能不存在；（4）外部API或工具出现故障；（5）Claude发现自身

★ 4,123 📥 842,526

ai-agent

guipi888

场景驱动+关键词双模式技能发现工具。当用户用自然语言描述场景/需求（如"我想做一个海报""帮我分析股票"），或明确说"安装技能/find skills/找个skill"时，自动从官方内置、本地已安装、SkillHub、虾评、GitHub、C

★ 1,488 📥 551,419

ai-agent

ivangdavila

自我反思+自我批评+自我学习+自组织记忆。智能体评估自身工作、发现错误并持续改进。

★ 1,406 📥 324,232