← 返回
未分类
Evaluation Benchmark
Agent评估测试助手。设计评估指标、构建测试集、生成报告。使用场景:(1) 设计评估指标,(2) 构建测试集,(3) 执行评估测试,(4) 分析评估结果。
sky-lv
未分类
clawhub
v1.0.0 100000 Key: 无需
概述
Evaluation & Benchmark — Agent评估助手
功能说明
评估和测试Agent性能。
使用方法
1. 评估指标
用户: 如何评估Agent的效果?
2. 测试集设计
用户: 构建一个代码生成测试集
3. 评估执行
用户: 运行评估测试
4. 结果分析
用户: 分析这次评估的结果
版本历史
共 1 个版本
-
v1.0.0
当前
2026-05-07 08:01 安全 安全