← 返回
未分类

skill coach

用 R-V-C-E 心智模型为 AI skill 给方向、做审查、做优化(风险 Risk → 价值 Value → 工艺 Craft → 证据 Evidence)。 两种模式: (A) 设计模式——用户想新建一个 skill、问"这个 skill 该怎么设计/怎么做/做成什么样"时, 像产品经理一样用 R-V-C-E 反向给设计方向(风险预判、该不该存在、触发边界画哪、确定性靠什么、怎么验证)。 (B) 评审模式——评审/检查已有 skill 好不好、优化 description 或触发、判断该不该上线/合并、 分析 skill 之间会不会互相抢触发、问"这个 skill 写得怎么样/能不能用/有什么问题"。 触发词:做一个 skill、这个 skill 该怎么设计、新建 skill、审查 skill、评审 skill、检查 skill、 优化 skill、skill 质量、skill review、这个 skill 好不好、skill 该不该上、skill 触发不准、skill 互相抢。 衔接:若用户对"要做什么"本身还没想清楚,先用 grill 理清需求,再用本技能给 R-V-C-
做一个 AI Skill,或判断它好不好用 一套五步法,事前帮你给设计方向,事后帮你查好坏——决定能不能放心用、要不要先修、还是干脆别要。 用 R-V-C-E 心智模型为 AI skill 给方向、做审查、做优化(风险 Risk → 价值 Value → 工艺 Craft → 证据 Evidence)。 两种模式: (A) 设计模式——用户想新建一个 skill、问"这个 skill 该怎么设计/怎么做/做成什么样"时, 像产品经理一样用 R-V-C-E 反向给设计方向(风险预判、该不该存在、触发边界画哪、确定性靠什么、怎么验证)。 (B) 评审模式——评审/检查已有 skill 好不好、优化 description 或触发、判断该不该上线/合并、 分析 skill 之间会不会互相抢触发、问"这个 skill 写得怎么样/能不能用/有什么问题"。 触发词:做一个 skill、这个 skill 该怎么设计、新建 skill、审查 skill、评审 skill、检查 skill、 优化 skill、skill 质量、skill review、这个 skill 好不好、skill 该不该上、skill 触发不准、skill 互相抢。 衔接:若用户对"要做什么"本身还没想清楚,先用 grill 理清需求,再用本技能给 R-V-C-E 设计方向。 不要用于:与 skill 无关的普通编码/调试(→ debug-session)、与 skill 无关的产品/流程设计(→ grill)、 以及不涉及"某个 skill 该怎么做或好不好"的一般问答。
ARK3
未分类 community v1.0.1 2 版本 97500 Key: 无需
★ 0
Stars
📥 39
下载
💾 0
安装
2
版本
#latest

概述

Skill 教练 · Skill Coach(R-V-C-E)

> 既在你做 skill 时给设计方向(赛前指导),也在 skill 做好后帮你查好坏(赛后复盘)——像教练一样。

> ⚠️ v0.1 实验版:判据已过 9 个真实 skill + eval 闭环验证(方向可信),

> 但判据的"权重/分数线"仍在迭代,未跑够约 20 个样本。评分是参考,不是定论。

> 完整背景见 ~/Desktop/Skill教程/R-V-C-E-v2.4.md

两种模式(先判断用户在哪一种)

  • 设计模式(事前给方向):用户想新建一个 skill、或问"这个 skill 该怎么设计/做成什么样"。
  • 评审模式(事后量好坏):用户已有一个 skill,要评审 / 优化 / 判断该不该上。

判据是同一套 R-V-C-E——评审是正读(拿判据当评分卡),设计是反读(拿判据当设计提问清单)

设计模式怎么走

  1. 先确认需求清不清楚。若用户对"到底要解决什么问题、给谁用、成功长什么样"还含糊 →

先建议用 grill 理清需求(grill 负责"想清楚要什么",本技能负责"翻译成 skill 怎么落地")。需求清楚了再往下。

  1. 用 R-V-C-E 反读,给设计方向(不是打分,是给"该往哪做"的建议):
    • R → 这个 skill 会碰钱/权限/合规吗?错了用户能自己发现吗?→ 先定它是 L0–L3,风险越高,下面要求越严
    • V → 它真比"直接问 AI"强吗?和已有 skill 撞不撞?→ 不够独特就劝退/合并,别做。
    • C → 触发边界该画哪(该触发/不该触发各举例)|内容怎么分层|关键承诺怎么落地成"输出契约"而非空口
    • E → 上线前打算怎么验证触发准不准(建议用 trigger_eval.py 跑标注样例)。
  2. 产出 = 一份设计方向建议(不是检查表):风险定级 + 该不该做 + 触发边界草案 + 确定性怎么保证 + 怎么验证。
  3. 等 skill 真做出来后,再切评审模式正式过一遍 + 输出第 7 节检查表。

> 设计模式给的是方向和草案,不强制输出检查表(那是评审模式的铁律)。


评审模式铁律:审查完一个 skill,必须输出第 7 节那张填好的检查表。没有表 = 没审查。


1. R 风险定级(先定,它决定后面所有及格线)

默认 L0,逐条扫,命中即加:

□ 碰钱/权限/合规/税务/主数据/生产系统       → 直接 L2 起跳
□ 写【业务数据/代码/配置】(非笔记类md/草稿)  → +1 档
□ 错了之后用户难以自己发现错了              → +1 档
□ 输出会进下游系统 / 被别人二次使用          → +1 档
□ 多人 / 跨团队共用                        → +1 档

落在命中后的最高档。L0 文案/PPT|L1 代码/数据/报告|L2 财务/权限/合规/流程|L3 医疗/法律/付款/生产。

L3 闸门(独立于判据数量):L3 = 不可逆自动执行 无人工拦截点。建议性 + 有人复核 → 高危叠再多也封顶 L2。

> R 不打分,它决定每项的及格线。R≥L2 → 走深度版(判据全跑 + 邻居扫描)。


2. V 价值(该不该存在)

  • 解决什么真问题?比直接问基座模型强在哪?用户没它会怎么做?
  • 和已有 skill 撞车吗?该独立 / 合并 / 被路由?
  • 久未维护 / owner 缺失 → 价值衰减。

→ 价值不明 / 高度重叠 → Drop,不往下走。


3. C 工艺三尺(评分都落这里)

先定类型:知识型(狠拆 references)|访谈型(核心指令一口气读完)|指挥官型(工具箱内联)|路由/编排型(看分诊准不准、覆盖全不全)。判据:执行时就近用→内联;偶尔查→下沉。

3.1 Trigger 触发(三分类)

该触发 / 不该触发 / 该拆解分诊(复合任务别独吞)。

  • L2+ 且无 should-NOT-fire → 此项 ≤3 分。
  • L0 重召回,L2 重精确(宁漏不误触发)。
  • 触发 ≠ 给正面答案:安全拒答(拒绝违规并转 owner)也算该触发
  • name 须是合法标识符(无空格/特殊字符)且全库唯一。

3.2 Layering 分层

按"就近用/偶尔查"评。字面超胖 ≠ 失分(指挥官型工具箱内联是特性)。

3.3 Determinism 确定性 ★最关键

过程承诺:"我会先检索" —— 看不出做没做           → 上限 2 分
输出契约:"每条答案必带【来源】标记,缺则违规"   → 可达 3.5 分(无需 runtime)
真机制:  脚本/工具/runtime 强制                → 可达 5 分

> 提确定性的通用手法 = 把过程承诺改写成输出契约。

> ⚠️ 评 Determinism 必须逐个读正文找有没有"强制引用/必带标记/自检退回",禁止凭 skill 类型批量推断(曾因此误判多个 skill)。一段话可能过程承诺+输出契约混合,按最强的可验证条款给分。


4. E 证据(双层线 + 折旧)

自测线(个人可达):E0 手感 → E1 人工样例 → E2 自动跑标注样例(必含对抗+边界样例)
真实线(团队阶段):E3 真实使用样例 → E4 持续监控
  • 个人场景 L2 的 Pass 上限 = E2;团队追 E3;L3 必须机制 + E3/E4。
  • 证据会过期:久未验证 / 知识源变过 → 降档。
  • 触发准确率要真跑 eval 才算数(见 ~/Desktop/Skill教程/eval-原型/trigger_eval.py),别凭手感断言。

5. 决策三档 + 护栏

Pass        能用 / 能发
Fix-first   有明确 must-fix,修完再用
Drop        不该存在 / 该并掉

护栏(任一命中即定档):

R≥L2 且 Evidence=E0              → 不能 Pass
R≥L2 且 Determinism≤2            → Fix-first
R≥L2 且 Trigger≤3(无 should-NOT) → Fix-first(补边界)
无运维表 / V 折旧填"未知"         → Fix-first(建表)
Value 不明 / 高度重叠            → Drop

6. 自知之明(必须守的边界)

  1. 只评工艺,不评内容:判得了 description/确定性写得好不好;判不了 skill 正文里的专家经验/知识对不对、全不全——那要领域专家或对抗式 AI panel,拿不准标「需人确认」,别硬打分。
  2. 风险是「skill × 具体问题」的属性,不是 skill 固定标签。
  3. 判据权重仍是手感:评分是参考,结论用"能用/先修/砍掉"表达,别假装精确。
  4. 必须看真实内容,禁止凭类型归类推断分数

7. 输出检查表(★审查完必须输出,缺表=没审查)

## R-V-C-E 自检:<skill 名>

- 类型:知识型 / 访谈型 / 指挥官型 / 路由编排型
- R 风险:L0 / L1 / L2 / L3(命中哪几条判据:___)
- V 价值:解决什么真问题 ___|比基座强在 ___|撞车吗 ___|久未维护? ___
- C 工艺:
  - Trigger ___/5(该触发例 ___|不该触发边界 ___|有无复合任务该拆解 ___|name 合法唯一? ___)
  - Layering ___/5(该内联/下沉判断 ___)
  - Determinism ___/5(读了正文:关键承诺是 过程承诺/输出契约/真机制?___)
- E 证据:当前 E0–E4 ___(还在靠手感的部分 ___|触发跑 eval 了吗 ___)
- 决策:Pass / Fix-first / Drop(触发了哪条护栏:___)
- Must fix(改完才能用):1.___ 2.___
- 需人确认(我判不了的内容质量 / 领域真相):___

版本历史

共 2 个版本

  • v1.0.1 Initial release 当前
    2026-06-02 13:48 安全 安全
  • v1.0.0 Initial release
    2026-06-02 13:42 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

Debug Ultra

user_dc515faf
A disciplined debugging session skill that prevents AI from jumping to fixes before reproduction, feedback loops, and fa
★ 1 📥 111

Claude code 协同

user_dc515faf
This skill coordinates a safe dual-agent advisory workflow between WorkBuddy and Claude Code for architecture analysis,
★ 2 📥 86

Grill Pro

user_dc515faf
🔥 Grill — 让 AI 拷问你的设计 一句话: 在你动手之前,让 AI 追着你把每个设计决策想清楚。 它解决什么问题? 写代码前,大家都有过这些时刻: 方案只想了一半就开干,结果做到一半发现方向不对 术语含义模糊,"账户"到底指客
★ 1 📥 88