← 返回
未分类

Agent Eval Suite

Provides benchmark testing, A/B testing, performance regression detection, and simulation environment testing for agent evaluation.
提供基准测试、A/B测试、性能回归检测和仿真环境测试,用于智能体评估。
yuyonghao-123 yuyonghao-123 来源
未分类 clawhub v0.1.0 1 版本 100000 Key: 无需
★ 0
Stars
📥 365
下载
💾 0
安装
1
版本
#latest

概述

Agent Eval Suite

Agent 评估套件,提供基准测试、A/B测试、性能回归检测和模拟环境测试。

功能特性

1. 基准测试框架

  • 标准化测试用例
  • 多维度评估指标
  • 基准对比
  • 评分系统

2. A/B 测试

  • 对照组设计
  • 随机分组
  • 统计显著性检验
  • 结果分析

3. 性能回归检测

  • 历史性能对比
  • 回归告警
  • 性能趋势图
  • 根因分析

4. 模拟环境测试

  • 沙箱环境
  • 场景模拟
  • 边界条件测试
  • 故障注入

安装

npm install

使用方法

Benchmark

const { Benchmark } = require('./src');

const benchmark = new Benchmark({ iterations: 100 });

benchmark.addTest('task-completion', {
  execute: async () => await agent.completeTask(task)
});

const results = await benchmark.run();
console.log(results);

ABTester

const { ABTester } = require('./src');

const ab = new ABTester({ confidenceLevel: 0.95 });

ab.createExperiment('new-prompt', {
  control: async () => await oldPrompt(),
  treatment: async () => await newPrompt()
});

const result = await ab.run('new-prompt', { sampleSize: 200 });
console.log(result); // { winner: 'treatment', confidence: 0.97 }

RegressionDetector

const { RegressionDetector } = require('./src');

const detector = new RegressionDetector({ threshold: 0.1 });

detector.record('response-time', { version: 'v1.1.0', value: 1200 });

const regressions = detector.detect();
console.log(regressions);

测试

npm test

License

MIT

版本历史

共 1 个版本

  • v0.1.0 当前
    2026-05-03 09:48 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

ai-agent

Find Skills

root
帮助用户发现和安装智能体技能,当用户询问如「如何做X」、「找X的技能」、「有能做...的吗」等问题时
★ 1,521 📥 578,790
ai-agent

Agent Browser

rez0
用于 AI 代理的浏览器自动化 CLI。当用户需要与网站交互(包括浏览页面、填写表单、点击按钮、截图等)时使用。
★ 868 📥 347,867
knowledge-management

Summarize

yuyonghao-123
使用 summarize CLI 摘要 URL 或文件(网页、PDF、图片、音频、YouTube)。
★ 8 📥 5,103