为子智能体(subagent)提供学术论文驱动的多维度评估能力,覆盖任务完成、上下文隔离、协作效率与归因分析。
依赖:仅需 Python 3.8+ 标准库(无第三方依赖)。
python scripts/evaluator.py
最小评估流程(3 步):
create_evaluation_scenario(...) 定义评估场景
create_task_result(...) 包装子智能体的实际输出
SubagentEvaluator().evaluate_batch(scenarios, results) 得到 JSON/Markdown 报告
完整端到端示例见 examples.md。
本 Skill 整合 4 种主流学术评估框架:
| 框架 | 来源论文 | 在本 Skill 中的对应实现 |
|------|----------|------------------------|
| 多维度基准 | AgentBench (ICLR 2024) | AgentBenchEvaluator:环境理解 / 工具使用 / 规划 / 错误恢复 |
| 细粒度推理链 | AgentBoard | 通过 metadata.steps 字段评估推理过程 |
| 智能体互评 | Agent-as-a-Judge | 通过 evaluator_agent 接入 LLM 评分(外部注入) |
| 混合评估 | Hybrid Evaluation Framework | 确定性指标 + LLM 评分加权综合 |
详细论文与启示参见 references/papers.md。
四大类指标,全部由 scripts/evaluator.py 中的 EvaluationMetrics dataclass 承载:
pass_at_k:k 次采样中至少一次通过的概率(Codex 公式)
accuracy:输出正确率
completion_rate:任务完成率
auc:分类能力(可选)
task_leakage:输入信息在输出中的泄露度(越低越好)
summary_purity:摘要相对原始数据的纯净度
citation_pollution:无关引用混入度
information_diversity:消息序列的 Type-Token Ratio
unnecessary_path_ratio:实际路径相对最优路径的冗余度
information_fidelity:跨智能体信息传递的保真度
intent_alignment:智能体行动与用户意图的对齐度
recall_health:检索结果的 F1 健康度
composition_priority:组件执行顺序是否满足依赖关系
完整指标定义、计算公式与阈值参见 references/metrics.md。
[准备] 定义场景 (EvaluationScenario)
↓
[执行] 子智能体运行任务 → 包装为 TaskResult
↓
[评估] SubagentEvaluator.evaluate_scenario()
├─ AgentBenchEvaluator 多维度评分
├─ ContextIsolationEvaluator 泄露/纯度/污染
├─ CollaborationEfficiency 多样性/路径/保真
└─ AttributionAnalysis 意图/召回/优先级
↓
[聚合] evaluate_batch() → 计算 pass@k 与平均指标
↓
[输出] generate_report(format="markdown" | "json")
| 指标 | 优秀 | 良好 | 及格 | 不及格 |
|------|------|------|------|--------|
| pass@k | ≥95% | ≥85% | ≥70% | <70% |
| accuracy | ≥98% | ≥90% | ≥80% | <80% |
| task_leakage | 0% | ≤5% | ≤10% | >10% |
| summary_purity| ≥95% | ≥85% | ≥70% | <70% |
> ⚠️ 上表为社区经验值,正式发布前建议结合自有基线数据校准。
generate_report() 输出的 Markdown 报告结构:
# 子智能体评估报告
## 评估概览 # 总场景数 / 成功 / 失败 / 成功率
## Pass@k 指标 # pass@1, pass@5, pass@10
## 平均指标 # 13 项 EvaluationMetrics 字段
## 详细结果 # 每个场景的成功状态、执行时间、指标
report["detailed_results"] 接入图表工具便于解读。
subagent-evaluator/
├── SKILL.md # 本文件(< 200 行)
├── examples.md # 端到端使用示例
├── references/
│ ├── metrics.md # 完整指标定义与公式
│ └── papers.md # 学术论文索引(含可信度标注)
└── scripts/
└── evaluator.py # 零依赖 Python 评估器实现
共 1 个版本