Evaluation Benchmark

Agent评估测试助手。设计评估指标、构建测试集、生成报告。使用场景：(1) 设计评估指标，(2) 构建测试集，(3) 执行评估测试，(4) 分析评估结果。

sky-lv

未分类 clawhub v1.0.0 100000 Key: 无需

★ 0

Stars

📥 401

下载

💾 0

安装

概述

评估和测试Agent性能。

用户: 如何评估Agent的效果？

用户: 构建一个代码生成测试集

用户: 运行评估测试

用户: 分析这次评估的结果

共 1 个版本

暂无安全检测报告