← 返回
未分类

ClawBrain Benchmark

测试你的 OpenClaw 在 205 个真实场景下的表现,对比 ClawBrain v1.0 编排引擎的提升效果
在205个真实场景下测试OpenClaw的性能,对比ClawBrain v1.0编排引擎的提升效果
michaelfeng michaelfeng 来源
未分类 clawhub v1.0.2 1 版本 100000 Key: 无需
★ 0
Stars
📥 415
下载
💾 0
安装
1
版本
#latest

概述

ClawBrain Benchmark

测试你的 AI 在 OpenClaw 中的真实表现。看看它做简单事行不行,做复杂事会不会掉链子。

使用方法

直接说"跑一下 benchmark"或"测试一下模型效果"。

测试什么

10 大类、205 个真实场景:

类别测什么为什么重要
-----------------------
文件操作读、写、编辑文件基本功
搜索查资料、抓网页日常需求
消息微信、钉钉发消息沟通协作
终端跑命令、管服务开发运维
多步任务搜索→整理→保存→通知真正做事的能力
错误恢复出错了怎么办靠不靠谱
模糊指令"帮我准备下"聪不聪明
视觉理解看图、截图识别多模态能力

评测结果(v1.0)

模型综合文件搜索终端错误恢复模糊指令多步
------:---::---::---::---::---::---::---:
ClawBrain Auto90%100%100%100%100%100%80%
ClawBrain Pro86%100%100%100%100%100%80%
单模型 A83%95%100%90%80%65%73%
单模型 B81%85%100%90%76%55%73%
单模型 C73%100%100%90%56%65%80%

ClawBrain 通过编排引擎实现:主动思考→多模型协作→输出验证→错误恢复,综合表现超越任何单模型。

完整报告:https://clawbrain.dev/blog/openclaw-model-comparison

版本历史

共 1 个版本

  • v1.0.2 当前
    2026-05-03 08:09 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

ai-agent

self-improving agent

pskoett
捕获经验教训、错误及修正内容,以实现持续改进。适用于以下场景:(1)命令或操作意外失败;(2)用户纠正Claude(如“不,那不对……”“实际上……”);(3)用户请求的功能不存在;(4)外部API或工具出现故障;(5)Claude发现自身
★ 4,123 📥 842,526
ai-agent

Find Skills

guipi888
场景驱动+关键词双模式技能发现工具。当用户用自然语言描述场景/需求(如"我想做一个海报""帮我分析股票"),或明确说"安装技能/find skills/找个skill"时,自动从官方内置、本地已安装、SkillHub、虾评、GitHub、C
★ 1,488 📥 551,419
ai-agent

Self-Improving + Proactive Agent

ivangdavila
自我反思+自我批评+自我学习+自组织记忆。智能体评估自身工作、发现错误并持续改进。
★ 1,406 📥 324,232