← 返回
未分类

Subagent Evaluator

Evaluates subagent performance, reliability, context isolation, and collaboration quality based on AgentBench, AgentBoard, Agent-as-a-Judge, and hybrid evaluation frameworks. Use when evaluating subagents, benchmarking agent quality, testing agent context leakage, or analyzing multi-agent collaboration efficiency. Triggers on terms like "评估子智能体", "subagent evaluation", "agent benchmark", "agent quality test".
基于 AgentBench、AgentBoard、Agent-as-a-Judge 等 12 篇学术论文,提供子智能体多维度评估能力。覆盖任务完成率、上下文泄露检测、协作效率分析与归因诊断,支持 pass@k / 准确率 / F1 等 13 项指标,可输出 Markdown 或 JSON 评估报告。零外部依赖,仅需 Python 3.8+。
libra
未分类 community v1.0.0 1 版本 100000 Key: 无需
★ 0
Stars
📥 18
下载
💾 0
安装
1
版本
#latest

概述

子智能体评估专家 (Subagent Evaluator)

为子智能体(subagent)提供学术论文驱动的多维度评估能力,覆盖任务完成、上下文隔离、协作效率与归因分析。

适用场景

  • 评估子智能体的任务完成能力与稳定性
  • 检测子智能体的上下文泄露与摘要纯度
  • 分析多智能体协作效率与信息保真度
  • 诊断子智能体性能瓶颈、生成评估报告

Quick Start

依赖:仅需 Python 3.8+ 标准库(无第三方依赖)。

python scripts/evaluator.py

最小评估流程(3 步):

  1. create_evaluation_scenario(...) 定义评估场景
  2. create_task_result(...) 包装子智能体的实际输出
  3. SubagentEvaluator().evaluate_batch(scenarios, results) 得到 JSON/Markdown 报告

完整端到端示例见 examples.md

评估方法论

本 Skill 整合 4 种主流学术评估框架:

| 框架 | 来源论文 | 在本 Skill 中的对应实现 |

|------|----------|------------------------|

| 多维度基准 | AgentBench (ICLR 2024) | AgentBenchEvaluator:环境理解 / 工具使用 / 规划 / 错误恢复 |

| 细粒度推理链 | AgentBoard | 通过 metadata.steps 字段评估推理过程 |

| 智能体互评 | Agent-as-a-Judge | 通过 evaluator_agent 接入 LLM 评分(外部注入) |

| 混合评估 | Hybrid Evaluation Framework | 确定性指标 + LLM 评分加权综合 |

详细论文与启示参见 references/papers.md

评估维度与指标

四大类指标,全部由 scripts/evaluator.py 中的 EvaluationMetrics dataclass 承载:

1. 核心能力指标

  • pass_at_k:k 次采样中至少一次通过的概率(Codex 公式)
  • accuracy:输出正确率
  • completion_rate:任务完成率
  • auc:分类能力(可选)

2. 上下文隔离指标(防止泄露)

  • task_leakage:输入信息在输出中的泄露度(越低越好)
  • summary_purity:摘要相对原始数据的纯净度
  • citation_pollution:无关引用混入度

3. 协作效率指标

  • information_diversity:消息序列的 Type-Token Ratio
  • unnecessary_path_ratio:实际路径相对最优路径的冗余度
  • information_fidelity:跨智能体信息传递的保真度

4. 归因分析指标

  • intent_alignment:智能体行动与用户意图的对齐度
  • recall_health:检索结果的 F1 健康度
  • composition_priority:组件执行顺序是否满足依赖关系

完整指标定义、计算公式与阈值参见 references/metrics.md

标准评估流程

[准备] 定义场景 (EvaluationScenario)
   ↓
[执行] 子智能体运行任务 → 包装为 TaskResult
   ↓
[评估] SubagentEvaluator.evaluate_scenario()
       ├─ AgentBenchEvaluator        多维度评分
       ├─ ContextIsolationEvaluator  泄露/纯度/污染
       ├─ CollaborationEfficiency    多样性/路径/保真
       └─ AttributionAnalysis        意图/召回/优先级
   ↓
[聚合] evaluate_batch() → 计算 pass@k 与平均指标
   ↓
[输出] generate_report(format="markdown" | "json")

阈值参考(经验值,非论文官方)

| 指标 | 优秀 | 良好 | 及格 | 不及格 |

|------|------|------|------|--------|

| pass@k | ≥95% | ≥85% | ≥70% | <70% |

| accuracy | ≥98% | ≥90% | ≥80% | <80% |

| task_leakage | 0% | ≤5% | ≤10% | >10% |

| summary_purity| ≥95% | ≥85% | ≥70% | <70% |

> ⚠️ 上表为社区经验值,正式发布前建议结合自有基线数据校准。

输出报告模板

generate_report() 输出的 Markdown 报告结构:

# 子智能体评估报告
## 评估概览        # 总场景数 / 成功 / 失败 / 成功率
## Pass@k 指标     # pass@1, pass@5, pass@10
## 平均指标        # 13 项 EvaluationMetrics 字段
## 详细结果        # 每个场景的成功状态、执行时间、指标

最佳实践

  1. 样本量:单次评估至少 30 个场景以获得统计显著性。
  2. 多样性:场景应覆盖正常路径、边界情况、对抗输入。
  3. 基线对比:与已知 baseline 子智能体或人工标注做横向对比。
  4. 持续监控:把评估接入 CI,回归检测性能漂移。
  5. 结果可视化:将 report["detailed_results"] 接入图表工具便于解读。

文件清单

subagent-evaluator/
├── SKILL.md                  # 本文件(< 200 行)
├── examples.md               # 端到端使用示例
├── references/
│   ├── metrics.md            # 完整指标定义与公式
│   └── papers.md             # 学术论文索引(含可信度标注)
└── scripts/
    └── evaluator.py          # 零依赖 Python 评估器实现

版本历史

共 1 个版本

  • v1.0.0 Initial release 当前
    2026-06-04 16:30 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

智能出题与评测系统

user_f37e97ba
基于Bloom认知分类法的自动化试题生成工具。指定学科知识点、难度等级和题型(选择/填空/简答/论述),自动生成含标准答案、详细解析和难度标定的试题,支持批量生成和自动组卷。核心功能:1. 知识点+难度+题型多维度输入,一键批量出题;2.
★ 2 📥 111

智能财报解读助手

user_f37e97ba
智能财报解读助手。上传企业财报PDF/文本/链接,自动提取关键财务指标、执行杜邦分析、行业对标,生成结构化财务分析报告。 触发:'分析财报' '财报解读' '财务分析' '利润表分析' '资产负债表' 'analyze financial
★ 1 📥 78

工业设备故障诊断报告生成器

user_f37e97ba
基于FTA故障树分析和FMECA失效模式分析两大工业标准方法论的专业诊断工具。输入设备运行日志/传感器数据/报警记录/维修历史,自动构建故障树、评估RPN风险优先数、交叉验证根因,输出含紧急措施/纠正措施/预防措施的分级维修建议和备件清单。
★ 0 📥 89