Meta Skill 是一个能够自我进化的元技能系统,它通过观察、反思、变异、验证和上线的闭环,持续优化其他技能的表现。
v2.0: 引入真正的 LLM 驱动反思和验证,不再是 Mock 实现。
v2.1: 大幅提升用户体验(友好错误提示、快速启动向导、深度 FAQ/反模式、完整恢复策略、扩展开发指南、输出确定性保障)。
不是替代智能,而是增强智能。 Meta Skill 不直接处理用户请求,而是管理那些处理请求的技能的策略。它像一个优秀的教练,通过观察比赛(执行日志)、分析战术(反思)、调整训练方案(变异)、验证效果(离线测试)来提升团队表现。
v2.0 重大改进:
┌─────────────────────────────────────────────────────────────┐
│ Meta Skill Runtime │
│ │
│ ┌─────────────────┐ ┌─────────────────┐ │
│ │ 安全内核 │ │ 可进化策略层 │ │
│ │ (Hardened Core) │ │ (Evolving Layer)│ │
│ │ │ │ │ │
│ │ · 策略加载器 │ │ · 调度策略 │ │
│ │ · 执行沙箱 │ │ · 评估策略 │ │
│ │ · 日志&监控 │ │ · 优化策略 │ │
│ │ · 回滚控制器 │ │ · 反思策略 │ │
│ │ · 权限守卫 │ │ · 进化控制策略 │ │
│ └────────┬────────┘ └────────┬────────┘ │
│ │ │ │
│ └────────┬───────────┘ │
│ │ │
│ ┌─────────────────▼───────────────────┐ │
│ │ 策略版本管理 & 元认知管道 │ │
│ └─────────────────┬───────────────────┘ │
└────────────────────┼────────────────────────────────────────┘
│
┌───────────┴───────────┐
│ │
┌──────▼──────┐ ┌──────▼──────┐
│ Skill Pool │ │ LLM Backend│ ← v2.0: 真实 LLM 集成
└─────────────┘ └─────────────┘
Meta Skill 在以下情况下自动启动:
v2.0 重大改进: 现在真正调用 LLM 分析日志,不再是硬编码规则!
调用 LLM 分析近期的执行日志,识别问题和优化机会。
使用方式:
python scripts/reflector_v2.py --skill-name <skill-name> --time-window 24h \
--llm-provider openai --llm-model gpt-4
LLM 反思 Prompt:
反思器会使用精心设计的 Prompt 模板,让 LLM 分析:
输出: JSON 格式的分析报告,包含:
回退机制: 如果 LLM 调用失败,会自动回退到基于规则的分析(简化版)。
v2.0 重大改进: 支持同时应用多个变异算子,生成多个候选策略!
根据反思器的输出,生成新的策略候选。
变异算子:
CLARIFY: 添加更明确的约束或排除项EXEMPLIFY: 从困难案例池生成新的 few-shot 示例ROLE_SET: 调整系统角色设定THRESHOLD_ADJUST: 修改数值型规则参数RULE_ADD: 增加新的 if-then 规则DECOMPOSE: 将复杂决策拆成多步v2.0 新增特性:
使用方式:
python scripts/mutator_v2.py --reflection-file <reflection.json> --output-dir ./candidates/ \
--max-candidates 3
输出: 多个候选策略文件(JSON 格式)
v2.0 重大改进: 现在真正调用 LLM 执行策略,不再是 Mock 模拟!
在新策略上线前进行回归测试和性能评估。
v2.0 验证流程:
使用方式:
python scripts/validator_v2.py --candidate-policy <policy.json> --test-set ./test_sets/golden.json \
--llm-provider openai --llm-model gpt-4
v2.0 验证指标:
通过影子模式、A/B 测试、全量上线三个阶段安全部署新策略。
阶段说明:
使用方式:
python scripts/rollout.py --policy-id <policy-id> --stage shadow
方式 1: 环境变量(推荐)
export OPENAI_API_KEY="sk-..."
export ANTHROPIC_API_KEY="sk-..."
方式 2: 配置文件
创建 config.json:
{
"provider": "openai",
"model": "gpt-4",
"api_base": "",
"temperature": 0.7,
"max_tokens": 4096,
"timeout": 60,
"max_retries": 3
}
方式 3: 命令行参数
python scripts/reflector_v2.py --skill-name xxx \
--llm-provider openai \
--llm-model gpt-4 \
--llm-config config.json
llm_client.py 提供了统一的 LLM 调用接口:
from llm_client import LLMClient, LLMProvider
# 创建客户端
client = LLMClient(
provider=LLMProvider.OPENAI,
model="gpt-4",
temperature=0.7
)
# 生成文本
response = client.complete("你的提示词")
# 生成 JSON(自动解析)
json_response = client.complete_json("生成 JSON 格式的输出")
特性:
测试集必须是 JSON 数组,每个测试用例包含:
必需字段:
id: 测试用例唯一标识符user_request: 用户输入的请求文本expected_output: 期望的策略输出可选字段:
available_skills: 可用的技能列表(用于路由策略测试)context: 额外上下文信息tags: 测试用例标签(用于分类和筛选)difficulty: 难度等级(easy/medium/hard)created_at: 创建时间source: 测试用例来源(real_log/few_shot/manual)示例:
[
{
"id": "test_001",
"user_request": "帮我翻译这段英文",
"expected_output": {
"selected_skill": "translation-skill",
"confidence": 0.95
},
"available_skills": ["translation-skill", "qa-skill"],
"tags": ["translation", "easy"],
"difficulty": "easy",
"source": "manual"
}
]
验证测试集格式:
python scripts/test_set_validator.py --test-set ./assets/test_sets/golden.json
生成测试集:
python scripts/test_set_generator.py --logs-file ./logs/skill_execution.json \
--skill-name my-skill \
--output ./assets/test_sets/my-skill/golden.json
每个策略是一个版本化的 JSON 包:
{
"policy_id": "routing_v2.3",
"type": "routing",
"prompt_template": "你是一个调度专家...",
"few_shot_examples": [...],
"rules": {
"max_retries": 2,
"prefer_local_model_for_short_text": true
},
"metadata": {
"version": "2.3",
"parent": "routing_v2.2",
"performance": {"success_rate": 0.94, "avg_latency_ms": 320},
"created_by": "auto-evolution",
"introduced_change": "Added rule to prefer lightweight model"
}
}
内核确保系统在任何情况下都能保持稳定:
方式 1: 使用 OpenAI
export OPENAI_API_KEY="sk-..."
方式 2: 使用本地 Ollama
# 安装 Ollama: https://ollama.com
ollama pull llama3
# 测试
python scripts/llm_client.py --provider ollama --model llama3 \
--prompt "Hello" --create-config
python scripts/init_meta_skill.py --skill-name <target-skill>
这会:
python scripts/status.py --skill-name <skill-name>
# 1. 反思(LLM 驱动)
python scripts/reflector_v2.py --skill-name <skill-name> --time-window 24h \
--llm-provider openai --llm-model gpt-4
# 2. 变异(多算子组合)
python scripts/mutator_v2.py --reflection-file logs/reflection_*.json \
--output-dir policies/<skill-name>/routing/candidates/
# 3. 验证(LLM 驱动)
python scripts/validator_v2.py --candidate-policy policies/.../candidate_*.json \
--test-set assets/test_sets/golden.json \
--llm-provider openai --llm-model gpt-4
# 4. 上线
python scripts/rollout.py --policy-id <policy-id> --stage shadow
python scripts/history.py --skill-name <skill-name> --limit 10
关注以下核心指标:
test_set_generator.py 从真实日志生成测试集test_set_validator.py 确保格式正确meta-skill/
├── SKILL.md # 本文件
├── config.json # v2.0: LLM 配置文件
├── scripts/ # 核心脚本
│ ├── llm_client.py # v2.0: LLM 客户端统一接口
│ ├── reflector.py # v1.0: 基于规则的反思器(已废弃)
│ ├── reflector_v2.py # v2.0: LLM 驱动的反思器
│ ├── mutator.py # v1.0: 单算子变异器(已废弃)
│ ├── mutator_v2.py # v2.0: 多算子组合变异器
│ ├── validator.py # v1.0: Mock 验证器(已废弃)
│ ├── validator_v2.py # v2.0: LLM 驱动的验证器
│ ├── rollout.py # 上线管理
│ ├── merger.py # 技能合并器
│ ├── status.py # 状态查看
│ ├── history.py # 历史记录
│ ├── optimize.py # 一键优化
│ ├── test_set_validator.py # v2.0: 测试集验证工具
│ ├── test_set_generator.py # v2.0: 测试集生成工具
│ └── init_meta_skill.py # 初始化
├── references/ # 参考文档
│ ├── policy_templates.md # 策略模板
│ ├── mutation_operators.md # 变异算子详解
│ └── metrics_guide.md # 指标指南
├── policies/ # 策略存储
│ ├── routing/ # 路由策略
│ ├── evaluation/ # 评估策略
│ ├── optimization/ # 优化策略
│ ├── reflection/ # 反思策略
│ └── evolution_control/ # 进化控制策略
├── logs/ # 执行日志
└── assets/ # 资源文件
└── test_sets/ # v2.0: 标准测试集
├── test_set_schema.json # v2.0: JSON Schema
└── golden.json # 黄金测试集
# 1. 查看状态
python scripts/status.py --skill-name translation-skill
# 2. 触发反思(LLM 驱动)
python scripts/reflector_v2.py --skill-name translation-skill --time-window 24h \
--llm-provider openai --llm-model gpt-4
# 3. 查看分析结果
cat logs/reflection_20260523.json
# 4. 生成候选策略(多算子组合)
python scripts/mutator_v2.py --reflection-file logs/reflection_20260523.json \
--output-dir policies/routing/candidates/
# 5. 验证候选(LLM 驱动)
python scripts/validator_v2.py \
--candidate-policy policies/routing/candidates/routing_v2.4.json \
--test-set assets/test_sets/golden.json \
--llm-provider openai --llm-model gpt-4
# 6. 渐进上线
python scripts/rollout.py --policy-id routing_v2.4 --stage shadow
# 1. 安装 Ollama
# macOS: brew install ollama
# Linux: curl -fsSL https://ollama.com/install.sh | sh
# 2. 下载模型
ollama pull llama3
# 3. 使用 Ollama 进行反思
python scripts/reflector_v2.py --skill-name my-skill --time-window 24h \
--llm-provider ollama --llm-model llama3
# 4. 验证(同样使用 Ollama)
python scripts/validator_v2.py --candidate-policy candidate.json \
--test-set assets/test_sets/golden.json \
--llm-provider ollama --llm-model llama3
可能原因:
解决方案:
# 检查 API Key
echo $OPENAI_API_KEY
# 测试 LLM 连接
python scripts/llm_client.py --provider openai --model gpt-4 \
--prompt "Hello" --create-config
# 查看详细错误
python scripts/reflector_v2.py --skill-name xxx --llm-provider openai 2>&1 | tee debug.log
可能原因:
解决方案:
# 减少测试集大小
python scripts/test_set_generator.py --logs-file xxx.json \
--max-examples 10 --output small_test_set.json
# 使用更快的模型
python scripts/validator_v2.py --candidate-policy xxx.json \
--llm-model gpt-3.5-turbo # 比 GPT-4 快
# 使用本地模型(无网络延迟)
python scripts/validator_v2.py --candidate-policy xxx.json \
--llm-provider ollama --llm-model llama3
可能原因:
解决方案:
# 增加时间窗口
python scripts/reflector_v2.py --skill-name xxx --time-window 72h
# 使用更强的模型
python scripts/reflector_v2.py --skill-name xxx \
--llm-provider openai --llm-model gpt-4-turbo
# 自定义反思 Prompt
# 编辑 reflector_v2.py 中的 REFLECTION_PROMPT_TEMPLATE
| 改进项 | v1.0 | v2.0 |
|---|---|---|
| ------- | ------ | ------ |
| 反思器 | 硬编码规则 | LLM 驱动 |
| 验证器 | Mock 模拟 | LLM 驱动 |
| 变异器 | 单算子 | 多算子组合 |
| LLM 支持 | 无 | OpenAI/Claude/Ollama/自定义 |
| 测试集格式 | 不统一 | 标准 JSON Schema |
| 测试集工具 | 无 | 验证器 + 生成器 |
| 最小样本量 | 100 | 10(降低门槛) |
| 回退机制 | 无 | 规则分析(LLM 失败时) |
references/policy_templates.md: 五大策略的详细模板references/mutation_operators.md: 变异算子完整列表references/metrics_guide.md: 指标定义和计算方法config.json: LLM 配置文件示例assets/test_sets/test_set_schema.json: 测试集 JSON Schemav2.1 发布日期: 2026-06-09
相关文档:
记住: Meta Skill 的目标是让系统变得更好,而不是更复杂。始终关注用户价值,而非技术炫技。
共 3 个版本