此Skill帮助创建可靠、可维护、可测试的 Agent Skill。
使用此Skill将用户的粗略工作流、领域专长或现有的 SKILL.md 转化为生产质量的Skill包,具备清晰的触发逻辑、执行工作流、可复用的 references、故障处理、质量检查和eval cases。
一个好的Skill不仅仅是一个提示词。一个好的Skill是另一个 Agent 的操作手册。
在创建或改进Skill时,需要优化以下方面:
优先使用清晰的操作指令,而非宽泛的角色描述。
避免模糊的指令,例如"保持专业"、"适当处理"、"自行判断"或"尽力做到最好",除非后面跟有具体的评判标准。
除非用户明确要求更狭窄的任务,否则按顺序遵循此工作流。
确定:
如果用户未提供足够的细节,推断出合理的初稿并明确标注假设。仅当缺失的信息会实质性地改变 Skill 设计时才提出追问。不追问的判断标准:缺失信息是否会改变工作流的步骤数量、分支数量或输出格式。
请求或生成 3 到 5 个能触发此Skill的典型用户请求。
对每个示例,确定:
如果用户没有提供示例,则生成合理的示例并将其标注为假设。
编写Skill描述作为主要的触发机制。
描述必须包含:
不要依赖正文中的"何时使用"部分来实现触发。正文只有在Skill已被触发后才可能被加载。
决定Skill是否需要:
SKILL.mdreferences/ 用于可复用的领域规则、示例、评分标准或长篇幅指导scripts/ 用于每次写代码会重写的确定性操作assets/ 用于模板、样板文件、示例文件、风格指南或可复用的项目结构使用此规则:
SKILL.md 中references/ 中scripts/ 中assets/ 中创建另一个 Agent 可以执行的逐步工作流。
工作流必须包含:
当顺序重要时使用编号步骤。
当顺序不重要时使用列表项。
对工作流中每个关键步骤,提取三类信息:
失败机制(Failure Mechanism):
可执行对策(Actionable Remedy):
高风险动作黑名单(High-Risk Action Blacklist):
输出格式:
| 步骤 | 失败机制 | 根因 | 触发条件 | 对策 | 黑名单 |
|------|----------|------|----------|------|--------|
对每个Skill,定义:
Skill不应在未标注的情况下推断用户输入或上下文。
当Skill做出假设时,必须标注出来。
当Skill无法完成完整任务时,必须产出最安全的部分结果,并说明缺少了什么。
定义Skill输出必须满足的具体标准。
质量门槛应包括:
创建至少 6 个 eval cases:
每个 eval case 应包含:
执行 references/self-editing-protocol.md 中定义的四轮 self-editing 审查协议,外加第五轮效用维度检查:
第一轮:用词检查。 扫描模糊词并替换为可衡量的标准。
第二轮:Style guide 对标。 检查术语一致性、任务导向标题、段落聚焦和结构,以 references/technical-writing-rules.md 作为 style guide。
第三轮:Agent 初次阅读审查。 从第一次看到这份文档的 Agent 视角重新通读。执行复述测试:如果任何指令可以被复述为两种不同的意思,则该指令有歧义。
第四轮:Eval cases 回查。 对于第9步中的每个 eval case,验证 Skill 中是否明确说明了如何处理。补充遗漏的处理逻辑,重复直到所有 eval cases 都被覆盖。
第五轮:效用维度检查。 使用 references/skill-utility-rubric.md 中的三维准则逐条审查 Skill:
五轮均无遗留问题后,Skill 才算完成。
交付Skill时,提供:
SKILL.mdreferences/ 文件scripts/ 文件(如有)assets/ 文件(如有)当Skill变得过长或难以维护时使用 references。
建议的 references:
references/skill-architecture.md —— 定义10层Skill架构references/technical-writing-rules.md —— 将 Google 技术写作原则转化为Skill写作规则references/self-editing-protocol.md —— 基于 Google Technical Writing Two 的四轮 self-editing 审查协议references/reliability-patterns.md —— 应用于Skill可靠性设计的 SRE 模式references/failure-modes.md —— 常见故障模式及修复references/description-trigger-guide.md —— 如何编写触发描述references/eval-design.md —— 如何为Skill设计eval casesreferences/security-review.md —— 发布Skill前的安全检查清单references/output-templates.md —— 标准输出模板references/skill-utility-rubric.md —— 基于 SkillLens 实证验证的三维效用评估准则(失败机制编码、可执行具体性、高风险动作黑名单),用于第10步第五轮审查和 Skill 变体对比references/eval-cases-self.md —— 本 Skill 自身的 eval cases(7 个测试场景)不要将长长的外部材料复制到 references 中。总结原则并将其改编为可操作的规则。
在创建新的高级Skill时,按以下结构输出结果:
1. Skill设计摘要
2. 假设
3. 文件夹结构
4. SKILL.md
5. 建议的 references
6. 建议的 scripts/assets
7. eval cases
8. 质量检查清单
9. 下一次迭代建议
在审查现有Skill时,按以下结构输出:
1. 总体诊断
2. 触发描述问题
3. 工作流问题
4. 可靠性缺口
5. Reference/script/assets 机会
6. 安全或工具使用风险
7. 具体的重写建议
8. 修订后的 SKILL.md(如需要)
已完成的Skill只有在以下条件满足时才可接受:
已完成的Skill在以下情况下不可接受:
在评估或设计Skill时,将其成熟度分类:
| 等级 | 名称 | 标准 |
|---|---|---|
| ------- | ------ | ------ |
| Level 1 | Prompt Skill | 仅角色设定 + 模糊的任务描述 |
| Level 2 | Workflow Skill | 清晰的步骤 + 输出格式 |
| Level 3 | Reliable Skill | 输入规则 + 分支 + 故障处理 + 质量检查 |
| Level 4 | Production Skill | references + scripts/assets + eval cases + 安全审查 + 迭代机制 |
Super-skill-creator-zh 的目标是最低 Level 3;对于高价值或复杂任务,目标为 Level 4。
共 1 个版本