> 既在你做 skill 时给设计方向(赛前指导),也在 skill 做好后帮你查好坏(赛后复盘)——像教练一样。
> ⚠️ v0.1 实验版:判据已过 9 个真实 skill + eval 闭环验证(方向可信),
> 但判据的"权重/分数线"仍在迭代,未跑够约 20 个样本。评分是参考,不是定论。
> 完整背景见 ~/Desktop/Skill教程/R-V-C-E-v2.4.md。
判据是同一套 R-V-C-E——评审是正读(拿判据当评分卡),设计是反读(拿判据当设计提问清单)。
先建议用 grill 理清需求(grill 负责"想清楚要什么",本技能负责"翻译成 skill 怎么落地")。需求清楚了再往下。
trigger_eval.py 跑标注样例)。> 设计模式给的是方向和草案,不强制输出检查表(那是评审模式的铁律)。
评审模式铁律:审查完一个 skill,必须输出第 7 节那张填好的检查表。没有表 = 没审查。
默认 L0,逐条扫,命中即加:
□ 碰钱/权限/合规/税务/主数据/生产系统 → 直接 L2 起跳
□ 写【业务数据/代码/配置】(非笔记类md/草稿) → +1 档
□ 错了之后用户难以自己发现错了 → +1 档
□ 输出会进下游系统 / 被别人二次使用 → +1 档
□ 多人 / 跨团队共用 → +1 档
落在命中后的最高档。L0 文案/PPT|L1 代码/数据/报告|L2 财务/权限/合规/流程|L3 医疗/法律/付款/生产。
L3 闸门(独立于判据数量):L3 = 不可逆自动执行 且 无人工拦截点。建议性 + 有人复核 → 高危叠再多也封顶 L2。
> R 不打分,它决定每项的及格线。R≥L2 → 走深度版(判据全跑 + 邻居扫描)。
→ 价值不明 / 高度重叠 → Drop,不往下走。
先定类型:知识型(狠拆 references)|访谈型(核心指令一口气读完)|指挥官型(工具箱内联)|路由/编排型(看分诊准不准、覆盖全不全)。判据:执行时就近用→内联;偶尔查→下沉。
该触发 / 不该触发 / 该拆解分诊(复合任务别独吞)。
按"就近用/偶尔查"评。字面超胖 ≠ 失分(指挥官型工具箱内联是特性)。
过程承诺:"我会先检索" —— 看不出做没做 → 上限 2 分
输出契约:"每条答案必带【来源】标记,缺则违规" → 可达 3.5 分(无需 runtime)
真机制: 脚本/工具/runtime 强制 → 可达 5 分
> 提确定性的通用手法 = 把过程承诺改写成输出契约。
> ⚠️ 评 Determinism 必须逐个读正文找有没有"强制引用/必带标记/自检退回",禁止凭 skill 类型批量推断(曾因此误判多个 skill)。一段话可能过程承诺+输出契约混合,按最强的可验证条款给分。
自测线(个人可达):E0 手感 → E1 人工样例 → E2 自动跑标注样例(必含对抗+边界样例)
真实线(团队阶段):E3 真实使用样例 → E4 持续监控
~/Desktop/Skill教程/eval-原型/trigger_eval.py),别凭手感断言。Pass 能用 / 能发
Fix-first 有明确 must-fix,修完再用
Drop 不该存在 / 该并掉
护栏(任一命中即定档):
R≥L2 且 Evidence=E0 → 不能 Pass
R≥L2 且 Determinism≤2 → Fix-first
R≥L2 且 Trigger≤3(无 should-NOT) → Fix-first(补边界)
无运维表 / V 折旧填"未知" → Fix-first(建表)
Value 不明 / 高度重叠 → Drop
## R-V-C-E 自检:<skill 名>
- 类型:知识型 / 访谈型 / 指挥官型 / 路由编排型
- R 风险:L0 / L1 / L2 / L3(命中哪几条判据:___)
- V 价值:解决什么真问题 ___|比基座强在 ___|撞车吗 ___|久未维护? ___
- C 工艺:
- Trigger ___/5(该触发例 ___|不该触发边界 ___|有无复合任务该拆解 ___|name 合法唯一? ___)
- Layering ___/5(该内联/下沉判断 ___)
- Determinism ___/5(读了正文:关键承诺是 过程承诺/输出契约/真机制?___)
- E 证据:当前 E0–E4 ___(还在靠手感的部分 ___|触发跑 eval 了吗 ___)
- 决策:Pass / Fix-first / Drop(触发了哪条护栏:___)
- Must fix(改完才能用):1.___ 2.___
- 需人确认(我判不了的内容质量 / 领域真相):___
共 2 个版本