概述

Skill 教练 · Skill Coach（R-V-C-E）

> 既在你做 skill 时给设计方向（赛前指导），也在 skill 做好后帮你查好坏（赛后复盘）——像教练一样。

> ⚠️ v0.1 实验版：判据已过 9 个真实 skill + eval 闭环验证（方向可信），

> 但判据的"权重/分数线"仍在迭代，未跑够约 20 个样本。评分是参考，不是定论。

> 完整背景见 ~/Desktop/Skill教程/R-V-C-E-v2.4.md。

两种模式（先判断用户在哪一种）

设计模式（事前给方向）：用户想新建一个 skill、或问"这个 skill 该怎么设计/做成什么样"。
评审模式（事后量好坏）：用户已有一个 skill，要评审 / 优化 / 判断该不该上。

判据是同一套 R-V-C-E——评审是正读（拿判据当评分卡），设计是反读（拿判据当设计提问清单）。

设计模式怎么走

先确认需求清不清楚。若用户对"到底要解决什么问题、给谁用、成功长什么样"还含糊 →

先建议用 grill 理清需求（grill 负责"想清楚要什么"，本技能负责"翻译成 skill 怎么落地"）。需求清楚了再往下。

用 R-V-C-E 反读，给设计方向（不是打分，是给"该往哪做"的建议）：

R → 这个 skill 会碰钱/权限/合规吗？错了用户能自己发现吗？→ 先定它是 L0–L3，风险越高，下面要求越严。
V → 它真比"直接问 AI"强吗？和已有 skill 撞不撞？→ 不够独特就劝退/合并，别做。
C → 触发边界该画哪（该触发/不该触发各举例）｜内容怎么分层｜关键承诺怎么落地成"输出契约"而非空口。
E → 上线前打算怎么验证触发准不准（建议用 trigger_eval.py 跑标注样例）。

产出 = 一份设计方向建议（不是检查表）：风险定级 + 该不该做 + 触发边界草案 + 确定性怎么保证 + 怎么验证。
等 skill 真做出来后，再切评审模式正式过一遍 + 输出第 7 节检查表。

> 设计模式给的是方向和草案，不强制输出检查表（那是评审模式的铁律）。

评审模式铁律：审查完一个 skill，必须输出第 7 节那张填好的检查表。没有表 = 没审查。

1. R 风险定级（先定，它决定后面所有及格线）

默认 L0，逐条扫，命中即加：

□ 碰钱/权限/合规/税务/主数据/生产系统       → 直接 L2 起跳
□ 写【业务数据/代码/配置】(非笔记类md/草稿)  → +1 档
□ 错了之后用户难以自己发现错了              → +1 档
□ 输出会进下游系统 / 被别人二次使用          → +1 档
□ 多人 / 跨团队共用                        → +1 档

落在命中后的最高档。L0 文案/PPT｜L1 代码/数据/报告｜L2 财务/权限/合规/流程｜L3 医疗/法律/付款/生产。

L3 闸门（独立于判据数量）：L3 = 不可逆自动执行且无人工拦截点。建议性 + 有人复核 → 高危叠再多也封顶 L2。

> R 不打分，它决定每项的及格线。R≥L2 → 走深度版（判据全跑 + 邻居扫描）。

2. V 价值（该不该存在）

解决什么真问题？比直接问基座模型强在哪？用户没它会怎么做？
和已有 skill 撞车吗？该独立 / 合并 / 被路由？
久未维护 / owner 缺失 → 价值衰减。

→ 价值不明 / 高度重叠 → Drop，不往下走。

3. C 工艺三尺（评分都落这里）

先定类型：知识型（狠拆 references）｜访谈型（核心指令一口气读完）｜指挥官型（工具箱内联）｜路由/编排型（看分诊准不准、覆盖全不全）。判据：执行时就近用→内联；偶尔查→下沉。

3.1 Trigger 触发（三分类）

该触发 / 不该触发 / 该拆解分诊（复合任务别独吞）。

L2+ 且无 should-NOT-fire → 此项 ≤3 分。
L0 重召回，L2 重精确（宁漏不误触发）。
触发 ≠ 给正面答案：安全拒答（拒绝违规并转 owner）也算该触发。
name 须是合法标识符（无空格/特殊字符）且全库唯一。

3.2 Layering 分层

按"就近用/偶尔查"评。字面超胖 ≠ 失分（指挥官型工具箱内联是特性）。

3.3 Determinism 确定性 ★最关键

过程承诺："我会先检索" —— 看不出做没做           → 上限 2 分
输出契约："每条答案必带【来源】标记，缺则违规"   → 可达 3.5 分（无需 runtime）
真机制：  脚本/工具/runtime 强制                → 可达 5 分

> 提确定性的通用手法 = 把过程承诺改写成输出契约。

> ⚠️ 评 Determinism 必须逐个读正文找有没有"强制引用/必带标记/自检退回"，禁止凭 skill 类型批量推断（曾因此误判多个 skill）。一段话可能过程承诺+输出契约混合，按最强的可验证条款给分。

4. E 证据（双层线 + 折旧）

自测线(个人可达)：E0 手感 → E1 人工样例 → E2 自动跑标注样例(必含对抗+边界样例)
真实线(团队阶段)：E3 真实使用样例 → E4 持续监控

个人场景 L2 的 Pass 上限 = E2；团队追 E3；L3 必须机制 + E3/E4。
证据会过期：久未验证 / 知识源变过 → 降档。
触发准确率要真跑 eval 才算数（见 ~/Desktop/Skill教程/eval-原型/trigger_eval.py），别凭手感断言。

5. 决策三档 + 护栏

Pass        能用 / 能发
Fix-first   有明确 must-fix，修完再用
Drop        不该存在 / 该并掉

护栏（任一命中即定档）：

R≥L2 且 Evidence=E0              → 不能 Pass
R≥L2 且 Determinism≤2            → Fix-first
R≥L2 且 Trigger≤3(无 should-NOT) → Fix-first(补边界)
无运维表 / V 折旧填"未知"         → Fix-first(建表)
Value 不明 / 高度重叠            → Drop

6. 自知之明（必须守的边界）

只评工艺，不评内容：判得了 description/确定性写得好不好；判不了 skill 正文里的专家经验/知识对不对、全不全——那要领域专家或对抗式 AI panel，拿不准标「需人确认」，别硬打分。
风险是「skill × 具体问题」的属性，不是 skill 固定标签。
判据权重仍是手感：评分是参考，结论用"能用/先修/砍掉"表达，别假装精确。
必须看真实内容，禁止凭类型归类推断分数。

7. 输出检查表（★审查完必须输出，缺表=没审查）

## R-V-C-E 自检：<skill 名>

- 类型：知识型 / 访谈型 / 指挥官型 / 路由编排型
- R 风险：L0 / L1 / L2 / L3（命中哪几条判据：___）
- V 价值：解决什么真问题 ___｜比基座强在 ___｜撞车吗 ___｜久未维护? ___
- C 工艺：
  - Trigger ___/5（该触发例 ___｜不该触发边界 ___｜有无复合任务该拆解 ___｜name 合法唯一? ___）
  - Layering ___/5（该内联/下沉判断 ___）
  - Determinism ___/5（读了正文：关键承诺是 过程承诺/输出契约/真机制？___）
- E 证据：当前 E0–E4 ___（还在靠手感的部分 ___｜触发跑 eval 了吗 ___）
- 决策：Pass / Fix-first / Drop（触发了哪条护栏：___）
- Must fix（改完才能用）：1.___ 2.___
- 需人确认（我判不了的内容质量 / 领域真相）：___

版本历史

共 2 个版本

v1.0.1 Initial release 当前

2026-06-02 13:48 安全安全
v1.0.0 Initial release

2026-06-02 13:42 安全

安全检测

腾讯云安全 (Keen)

安全，无风险

查看报告

腾讯云安全 (Sanbu)