Meta Skill - 自我进化的元技能系统 (v2.1)

Meta Skill 是一个能够自我进化的元技能系统,它通过观察、反思、变异、验证和上线的闭环,持续优化其他技能的表现。

v2.0: 引入真正的 LLM 驱动反思和验证，不再是 Mock 实现。

v2.1: 大幅提升用户体验（友好错误提示、快速启动向导、深度 FAQ/反模式、完整恢复策略、扩展开发指南、输出确定性保障）。

核心理念

不是替代智能,而是增强智能。 Meta Skill 不直接处理用户请求,而是管理那些处理请求的技能的策略。它像一个优秀的教练,通过观察比赛(执行日志)、分析战术(反思)、调整训练方案(变异)、验证效果(离线测试)来提升团队表现。

v2.0 重大改进:

✅ 真正的 LLM 集成: 反思器现在真正调用 LLM 分析日志,不再是硬编码规则
✅ 真实的策略验证: 验证器现在真正调用 LLM 执行策略,不再是 Mock 模拟
✅ 统一的 LLM 客户端: 支持 OpenAI、Claude、Ollama、自定义端点
✅ 多算子组合变异: 变异器现在支持同时应用多个变异算子
✅ 标准测试集格式: 定义了标准的测试集 JSON Schema
✅ 测试集验证和生成工具: 确保测试集质量

系统架构

┌─────────────────────────────────────────────────────────────┐
│                     Meta Skill Runtime                      │
│                                                             │
│  ┌─────────────────┐  ┌─────────────────┐                  │
│  │   安全内核       │  │  可进化策略层    │                  │
│  │ (Hardened Core) │  │ (Evolving Layer)│                  │
│  │                 │  │                 │                  │
│  │ · 策略加载器    │  │ · 调度策略     │                  │
│  │ · 执行沙箱      │  │ · 评估策略     │                  │
│  │ · 日志&监控     │  │ · 优化策略     │                  │
│  │ · 回滚控制器    │  │ · 反思策略     │                  │
│  │ · 权限守卫      │  │ · 进化控制策略 │                  │
│  └────────┬────────┘  └────────┬────────┘                  │
│           │                    │                            │
│           └────────┬───────────┘                            │
│                    │                                        │
│  ┌─────────────────▼───────────────────┐                    │
│  │        策略版本管理 & 元认知管道     │                    │
│  └─────────────────┬───────────────────┘                    │
└────────────────────┼────────────────────────────────────────┘
                     │
         ┌───────────┴───────────┐
         │                       │
  ┌──────▼──────┐        ┌──────▼──────┐
  │ Skill Pool  │        │  LLM Backend│  ← v2.0: 真实 LLM 集成
  └─────────────┘        └─────────────┘

工作流程 (v2.0 更新)

1. 触发机制

Meta Skill 在以下情况下自动启动:

定时触发: 每 N 次技能调用或每 M 小时
事件触发:
调度成功率在滑动窗口内下降 5%
新类型的错误日志突然增多
用户显式反馈不满(连续两次重新生成)
手动触发: 用户明确要求优化或分析技能表现

2. 反思器 (Reflector) - v2.0: LLM 驱动

v2.0 重大改进: 现在真正调用 LLM 分析日志,不再是硬编码规则!

调用 LLM 分析近期的执行日志,识别问题和优化机会。

使用方式:

python scripts/reflector_v2.py --skill-name <skill-name> --time-window 24h \
  --llm-provider openai --llm-model gpt-4

LLM 反思 Prompt:

反思器会使用精心设计的 Prompt 模板,让 LLM 分析:

路由策略是否存在模式缺陷
评估标准是否与用户真实满意度一致
发现哪些新的任务类型未被很好地处理
生成具体的优化建议

输出: JSON 格式的分析报告,包含:

识别的问题类型和严重程度
优化建议(目标策略、具体操作、预期收益)
困难案例样本
新增: LLM 模型信息、置信度评分

回退机制: 如果 LLM 调用失败,会自动回退到基于规则的分析（简化版）。

3. 策略变异器 (Mutator) - v2.0: 多算子组合

v2.0 重大改进: 支持同时应用多个变异算子,生成多个候选策略!

根据反思器的输出,生成新的策略候选。

变异算子:

CLARIFY: 添加更明确的约束或排除项
EXEMPLIFY: 从困难案例池生成新的 few-shot 示例
ROLE_SET: 调整系统角色设定
THRESHOLD_ADJUST: 修改数值型规则参数
RULE_ADD: 增加新的 if-then 规则
DECOMPOSE: 将复杂决策拆成多步

v2.0 新增特性:

多算子组合: 如果不冲突,可以同时应用多个算子
算子冲突检测: 避免不兼容的算子组合
多个候选策略: 为每个优化建议生成一个候选策略
智能版本管理: 根据算子类型自动选择合适的版本号递增级别

使用方式:

python scripts/mutator_v2.py --reflection-file <reflection.json> --output-dir ./candidates/ \
  --max-candidates 3

输出: 多个候选策略文件（JSON 格式）

4. 离线验证器 (Offline Validator) - v2.0: LLM 驱动

v2.0 重大改进: 现在真正调用 LLM 执行策略,不再是 Mock 模拟!

在新策略上线前进行回归测试和性能评估。

v2.0 验证流程:

加载候选策略和测试集
对于每个测试用例:

填充策略的 Prompt 模板
真正调用 LLM 获取输出
解析 LLM 输出
与期望输出对比

计算成功率、成本、延迟等指标
与当前策略对比,判断是否达到上线门槛

使用方式:

python scripts/validator_v2.py --candidate-policy <policy.json> --test-set ./test_sets/golden.json \
  --llm-provider openai --llm-model gpt-4

v2.0 验证指标:

成功率（与期望输出匹配）
平均延迟（真实 LLM 调用延迟）
平均 Token 消耗（真实值）
与当前策略的对比

5. 渐进上线 (Gradual Rollout)

通过影子模式、A/B 测试、全量上线三个阶段安全部署新策略。

阶段说明:

Stage 1 - 影子模式: 新策略并行运行但不实际执行,仅记录决策
Stage 2 - A/B 测试: 10% 流量使用新策略,监控指标
Stage 3 - 全量上线: 新策略成为默认版本,持续监控 24 小时

使用方式:

python scripts/rollout.py --policy-id <policy-id> --stage shadow

LLM 配置 (v2.0 新增)

支持的 LLM 提供商

OpenAI (GPT-4, GPT-3.5)
Claude (Anthropic)
Ollama (本地模型,如 Llama 3)
自定义端点 (OpenAI 兼容接口)

配置方式

方式 1: 环境变量（推荐）

export OPENAI_API_KEY="sk-..."
export ANTHROPIC_API_KEY="sk-..."

方式 2: 配置文件

创建 config.json:

{
  "provider": "openai",
  "model": "gpt-4",
  "api_base": "",
  "temperature": 0.7,
  "max_tokens": 4096,
  "timeout": 60,
  "max_retries": 3
}

方式 3: 命令行参数

python scripts/reflector_v2.py --skill-name xxx \
  --llm-provider openai \
  --llm-model gpt-4 \
  --llm-config config.json

LLM 客户端统一接口

llm_client.py 提供了统一的 LLM 调用接口:

from llm_client import LLMClient, LLMProvider

# 创建客户端
client = LLMClient(
    provider=LLMProvider.OPENAI,
    model="gpt-4",
    temperature=0.7
)

# 生成文本
response = client.complete("你的提示词")

# 生成 JSON（自动解析）
json_response = client.complete_json("生成 JSON 格式的输出")

特性:

自动重试（指数退避）
超时控制
错误 handled
支持多种后端

测试集格式 (v2.0 标准化)

标准格式规范

测试集必须是 JSON 数组,每个测试用例包含:

必需字段:

id: 测试用例唯一标识符
user_request: 用户输入的请求文本
expected_output: 期望的策略输出

可选字段:

available_skills: 可用的技能列表（用于路由策略测试）
context: 额外上下文信息
tags: 测试用例标签（用于分类和筛选）
difficulty: 难度等级（easy/medium/hard）
created_at: 创建时间
source: 测试用例来源（real_log/few_shot/manual）

示例:

[
  {
    "id": "test_001",
    "user_request": "帮我翻译这段英文",
    "expected_output": {
      "selected_skill": "translation-skill",
      "confidence": 0.95
    },
    "available_skills": ["translation-skill", "qa-skill"],
    "tags": ["translation", "easy"],
    "difficulty": "easy",
    "source": "manual"
  }
]

测试集工具

验证测试集格式:

python scripts/test_set_validator.py --test-set ./assets/test_sets/golden.json

生成测试集:

python scripts/test_set_generator.py --logs-file ./logs/skill_execution.json \
  --skill-name my-skill \
  --output ./assets/test_sets/my-skill/golden.json

策略管理

策略包结构

每个策略是一个版本化的 JSON 包:

{
  "policy_id": "routing_v2.3",
  "type": "routing",
  "prompt_template": "你是一个调度专家...",
  "few_shot_examples": [...],
  "rules": {
    "max_retries": 2,
    "prefer_local_model_for_short_text": true
  },
  "metadata": {
    "version": "2.3",
    "parent": "routing_v2.2",
    "performance": {"success_rate": 0.94, "avg_latency_ms": 320},
    "created_by": "auto-evolution",
    "introduced_change": "Added rule to prefer lightweight model"
  }
}

五大核心策略

Routing Policy: 决定用哪个技能或技能组合
Evaluation Policy: 定义如何审查技能输出
Optimization Policy: 定义如何对技能进行变异
Reflection Policy: 元认知 Prompt,分析日志并输出洞察
Evolution Control Policy: 决定何时触发进化、允许哪种变异

安全内核

内核确保系统在任何情况下都能保持稳定:

Policy Loader: 加载并验证策略格式
Execution Sandbox: 所有策略执行通过统一接口
Immutable Logger: 只追加日志,记录所有决策
Rollback Manager: 监控 KPI,自动回滚到稳定版本
Permission Guard: 三级权限控制(L0/L1/L2)

快速开始 (v2.0 更新)

1. 配置 LLM

方式 1: 使用 OpenAI

export OPENAI_API_KEY="sk-..."

方式 2: 使用本地 Ollama

# 安装 Ollama: https://ollama.com
ollama pull llama3

# 测试
python scripts/llm_client.py --provider ollama --model llama3 \
  --prompt "Hello" --create-config

2. 初始化 Meta Skill

python scripts/init_meta_skill.py --skill-name <target-skill>

这会:

为目标技能创建初始策略
设置日志收集器
初始化测试集

3. 查看技能表现

python scripts/status.py --skill-name <skill-name>

4. 手动触发优化 (v2.0)

# 1. 反思（LLM 驱动）
python scripts/reflector_v2.py --skill-name <skill-name> --time-window 24h \
  --llm-provider openai --llm-model gpt-4

# 2. 变异（多算子组合）
python scripts/mutator_v2.py --reflection-file logs/reflection_*.json \
  --output-dir policies/<skill-name>/routing/candidates/

# 3. 验证（LLM 驱动）
python scripts/validator_v2.py --candidate-policy policies/.../candidate_*.json \
  --test-set assets/test_sets/golden.json \
  --llm-provider openai --llm-model gpt-4

# 4. 上线
python scripts/rollout.py --policy-id <policy-id> --stage shadow

5. 查看优化历史

python scripts/history.py --skill-name <skill-name> --limit 10

最佳实践 (v2.0 更新)

何时使用 Meta Skill

技能表现出现明显下降
需要处理新的任务类型
用户反馈频繁出现相同问题
想要系统化地改进技能

何时不要使用 Meta Skill

技能刚创建,数据不足（需要至少 10 条日志，之前是 100 条）
问题可以通过简单配置解决
需要人工判断的主观优化

监控指标

关注以下核心指标:

调度成功率: 应保持在 90% 以上
用户满意度: 通过隐式反馈(重新生成率)衡量
平均延迟: 应在可接受范围内
成本效率: Token 使用是否合理
v2.0 新增: LLM 调用成功率、LLM 响应时间

v2.0 使用建议

从小模型开始: 如果成本敏感,可以先使用 GPT-3.5 或本地模型
监控 LLM 成本: 反思和验证会消耗 LLM 调用,注意成本
定期更新测试集: 使用 test_set_generator.py 从真实日志生成测试集
验证测试集格式: 使用 test_set_validator.py 确保格式正确

文件结构 (v2.0 更新)

meta-skill/
├── SKILL.md                    # 本文件
├── config.json                 # v2.0: LLM 配置文件
├── scripts/                    # 核心脚本
│   ├── llm_client.py          # v2.0: LLM 客户端统一接口
│   ├── reflector.py            # v1.0: 基于规则的反思器（已废弃）
│   ├── reflector_v2.py        # v2.0: LLM 驱动的反思器
│   ├── mutator.py             # v1.0: 单算子变异器（已废弃）
│   ├── mutator_v2.py          # v2.0: 多算子组合变异器
│   ├── validator.py            # v1.0: Mock 验证器（已废弃）
│   ├── validator_v2.py        # v2.0: LLM 驱动的验证器
│   ├── rollout.py             # 上线管理
│   ├── merger.py              # 技能合并器
│   ├── status.py              # 状态查看
│   ├── history.py             # 历史记录
│   ├── optimize.py            # 一键优化
│   ├── test_set_validator.py  # v2.0: 测试集验证工具
│   ├── test_set_generator.py  # v2.0: 测试集生成工具
│   └── init_meta_skill.py     # 初始化
├── references/                 # 参考文档
│   ├── policy_templates.md    # 策略模板
│   ├── mutation_operators.md  # 变异算子详解
│   └── metrics_guide.md       # 指标指南
├── policies/                   # 策略存储
│   ├── routing/               # 路由策略
│   ├── evaluation/            # 评估策略
│   ├── optimization/          # 优化策略
│   ├── reflection/            # 反思策略
│   └── evolution_control/     # 进化控制策略
├── logs/                       # 执行日志
└── assets/                     # 资源文件
    └── test_sets/             # v2.0: 标准测试集
        ├── test_set_schema.json  # v2.0: JSON Schema
        └── golden.json           # 黄金测试集

示例场景 (v2.0 更新)

场景 1: 技能调度成功率下降

# 1. 查看状态
python scripts/status.py --skill-name translation-skill

# 2. 触发反思（LLM 驱动）
python scripts/reflector_v2.py --skill-name translation-skill --time-window 24h \
  --llm-provider openai --llm-model gpt-4

# 3. 查看分析结果
cat logs/reflection_20260523.json

# 4. 生成候选策略（多算子组合）
python scripts/mutator_v2.py --reflection-file logs/reflection_20260523.json \
  --output-dir policies/routing/candidates/

# 5. 验证候选（LLM 驱动）
python scripts/validator_v2.py \
  --candidate-policy policies/routing/candidates/routing_v2.4.json \
  --test-set assets/test_sets/golden.json \
  --llm-provider openai --llm-model gpt-4

# 6. 渐进上线
python scripts/rollout.py --policy-id routing_v2.4 --stage shadow

场景 2: 使用本地模型（Ollama）

# 1. 安装 Ollama
# macOS: brew install ollama
# Linux: curl -fsSL https://ollama.com/install.sh | sh

# 2. 下载模型
ollama pull llama3

# 3. 使用 Ollama 进行反思
python scripts/reflector_v2.py --skill-name my-skill --time-window 24h \
  --llm-provider ollama --llm-model llama3

# 4. 验证（同样使用 Ollama）
python scripts/validator_v2.py --candidate-policy candidate.json \
  --test-set assets/test_sets/golden.json \
  --llm-provider ollama --llm-model llama3

故障排查 (v2.0 更新)

问题: LLM 调用失败

可能原因:

API Key 未设置
API 配额用尽
网络问题
模型不存在

解决方案:

# 检查 API Key
echo $OPENAI_API_KEY

# 测试 LLM 连接
python scripts/llm_client.py --provider openai --model gpt-4 \
  --prompt "Hello" --create-config

# 查看详细错误
python scripts/reflector_v2.py --skill-name xxx --llm-provider openai 2>&1 | tee debug.log

问题: 验证器运行太慢

可能原因:

测试集太大
LLM 响应慢
并发度不够

解决方案:

# 减少测试集大小
python scripts/test_set_generator.py --logs-file xxx.json \
  --max-examples 10 --output small_test_set.json

# 使用更快的模型
python scripts/validator_v2.py --candidate-policy xxx.json \
  --llm-model gpt-3.5-turbo  # 比 GPT-4 快

# 使用本地模型（无网络延迟）
python scripts/validator_v2.py --candidate-policy xxx.json \
  --llm-provider ollama --llm-model llama3

问题: 反思器输出质量差

可能原因:

日志数据不足
Prompt 模板不合适
模型能力不足

解决方案:

# 增加时间窗口
python scripts/reflector_v2.py --skill-name xxx --time-window 72h

# 使用更强的模型
python scripts/reflector_v2.py --skill-name xxx \
  --llm-provider openai --llm-model gpt-4-turbo

# 自定义反思 Prompt
# 编辑 reflector_v2.py 中的 REFLECTION_PROMPT_TEMPLATE

v2.0 改进总结

改进项	v1.0	v2.0
-------	------	------
反思器	硬编码规则	LLM 驱动
验证器	Mock 模拟	LLM 驱动
变异器	单算子	多算子组合
LLM 支持	无	OpenAI/Claude/Ollama/自定义
测试集格式	不统一	标准 JSON Schema
测试集工具	无	验证器 + 生成器
最小样本量	100	10（降低门槛）
回退机制	无	规则分析（LLM 失败时）

版本历史

共 3 个版本

v1.0.2 Initial release 当前

2026-06-09 02:56 安全安全
v1.0.1 Initial release

2026-06-09 02:20 安全安全
v1.0.0 Initial release

2026-06-09 01:39 安全安全

meta-skills

概述

Meta Skill - 自我进化的元技能系统 (v2.1)

核心理念

系统架构

工作流程 (v2.0 更新)

1. 触发机制

2. 反思器 (Reflector) - v2.0: LLM 驱动

3. 策略变异器 (Mutator) - v2.0: 多算子组合

4. 离线验证器 (Offline Validator) - v2.0: LLM 驱动

5. 渐进上线 (Gradual Rollout)

LLM 配置 (v2.0 新增)

支持的 LLM 提供商

配置方式

LLM 客户端统一接口

测试集格式 (v2.0 标准化)

标准格式规范

测试集工具

策略管理

策略包结构

五大核心策略

安全内核

快速开始 (v2.0 更新)

1. 配置 LLM

2. 初始化 Meta Skill

3. 查看技能表现

4. 手动触发优化 (v2.0)

5. 查看优化历史

最佳实践 (v2.0 更新)

何时使用 Meta Skill

何时不要使用 Meta Skill

监控指标

v2.0 使用建议

文件结构 (v2.0 更新)

示例场景 (v2.0 更新)

场景 1: 技能调度成功率下降

场景 2: 使用本地模型（Ollama）

故障排查 (v2.0 更新)

问题: LLM 调用失败

问题: 验证器运行太慢

问题: 反思器输出质量差

v2.0 改进总结

相关资源

版本历史

安全检测

腾讯云安全 (Keen)

腾讯云安全 (Sanbu)

🔗 相关推荐

Skill Vetter

Github

Self-Improving + Proactive Agent