← 返回
未分类

super-skill-creator-zh

创建、审查、重构、加固和评估高级 Agent Skill。当用户想要设计一个新Skill、改进现有的 SKILL.md、让一个Skill更加稳定、添加 references/scripts/assets、定义触发描述、创建 eval cases、减少歧义、处理故障模式、或将专家工作流转化为可靠可复用的Skill包时使用。
创建、审查、重构、加固和评估高级 Agent Skill。当用户想要设计一个新Skill、改进现有的 SKILL.md、让一个Skill更加稳定、添加 references/scripts/assets、定义触发描述、创建 eval cases、减少歧义、处理故障模式、或将专家工作流转化为可靠可复用的Skill包时使用。
金馆长的 AI 研习社
未分类 community v1.0.0 1 版本 100000 Key: 无需
★ 1
Stars
📥 43
下载
💾 0
安装
1
版本
#latest

概述

Super Skill Creator (中文版)

目的

此Skill帮助创建可靠、可维护、可测试的 Agent Skill。

使用此Skill将用户的粗略工作流、领域专长或现有的 SKILL.md 转化为生产质量的Skill包,具备清晰的触发逻辑、执行工作流、可复用的 references、故障处理、质量检查和eval cases。

一个好的Skill不仅仅是一个提示词。一个好的Skill是另一个 Agent 的操作手册。

核心原则

在创建或改进Skill时,需要优化以下方面:

  1. 清晰的触发机制
  2. 明确的任务边界
  3. 可重复的执行
  4. 显式的决策规则
  5. 安全且最小化的工具使用
  6. 显式的故障处理
  7. 可测试的输出质量
  8. 可维护的 references 和可复用资产

优先使用清晰的操作指令,而非宽泛的角色描述。

避免模糊的指令,例如"保持专业"、"适当处理"、"自行判断"或"尽力做到最好",除非后面跟有具体的评判标准。

工作流

除非用户明确要求更狭窄的任务,否则按顺序遵循此工作流。

第1步:理解Skill目标

确定:

  • 目标用户
  • Skill应执行的任务
  • 正在被捕获的重复性工作流
  • 预期的输出
  • 业务或运营价值
  • 不应使用此Skill的场景

如果用户未提供足够的细节,推断出合理的初稿并明确标注假设。仅当缺失的信息会实质性地改变 Skill 设计时才提出追问。不追问的判断标准:缺失信息是否会改变工作流的步骤数量、分支数量或输出格式。

第2步:收集具体的使用示例

请求或生成 3 到 5 个能触发此Skill的典型用户请求。

对每个示例,确定:

  • 用户意图
  • 必需的输入
  • 可选的输入
  • 预期的输出
  • 所需的工具
  • 可能的故障情况
  • 糟糕的回答应该是什么样

如果用户没有提供示例,则生成合理的示例并将其标注为假设。

第3步:定义触发契约

编写Skill描述作为主要的触发机制。

描述必须包含:

  • Skill的用途
  • 何时使用
  • 重要的相邻用例
  • 用户请求中可能出现的的关键短语或上下文

不要依赖正文中的"何时使用"部分来实现触发。正文只有在Skill已被触发后才可能被加载。

第4步:设计Skill架构

决定Skill是否需要:

  • 仅有 SKILL.md
  • references/ 用于可复用的领域规则、示例、评分标准或长篇幅指导
  • scripts/ 用于每次写代码会重写的确定性操作
  • assets/ 用于模板、样板文件、示例文件、风格指南或可复用的项目结构

使用此规则:

  • 执行关键指令放在 SKILL.md
  • 长篇幅稳定的知识放在 references/
  • 可重复的计算或转换放在 scripts/
  • 可复用的模板或源文件放在 assets/

第5步:编写操作工作流

创建另一个 Agent 可以执行的逐步工作流。

工作流必须包含:

  • 输入检查
  • 任务拆解
  • 工具使用决策
  • 决策分支
  • 输出组装
  • 最终质量检查

当顺序重要时使用编号步骤。

当顺序不重要时使用列表项。

第6步:编码失败机制与高风险动作黑名单

对工作流中每个关键步骤,提取三类信息:

失败机制(Failure Mechanism):

  • 该步骤的典型失败是什么(不是"可能失败",而是"失败时 Agent 具体在做/没做什么")
  • 失败的根因机制(如"主机引擎不评估公式字符串"而非"公式可能出错")
  • 该失败在什么条件下触发

可执行对策(Actionable Remedy):

  • 针对每个失败机制,给出步骤级的具体对策
  • 对策必须引用领域对象或工具(如"用 Python 预计算静态值再回写"而非"确保计算正确")

高风险动作黑名单(High-Risk Action Blacklist):

  • 明确列出禁止执行的具体动作模式
  • 格式:"禁止在 [条件] 下执行 [具体操作]"(如"禁止在未验证列类型前对整列执行数值运算")
  • 每条黑名单条目必须附带禁止原因(一句话)

输出格式:

| 步骤 | 失败机制 | 根因 | 触发条件 | 对策 | 黑名单 |
|------|----------|------|----------|------|--------|

第7步:添加可靠性设计

对每个Skill,定义:

  • 必需的输入
  • 输入缺失时的行为
  • 输入模糊时的行为
  • 工具故障时的行为
  • 不安全请求时的行为
  • 超出范围时的行为
  • 停止条件
  • 升级或用户更新规则

Skill不应在未标注的情况下推断用户输入或上下文。

当Skill做出假设时,必须标注出来。

当Skill无法完成完整任务时,必须产出最安全的部分结果,并说明缺少了什么。

第8步:添加质量门槛

定义Skill输出必须满足的具体标准。

质量门槛应包括:

  • 必需的章节
  • 准确性要求
  • 格式要求
  • 完整性要求
  • 禁止的行为
  • 不可接受输出的示例

第9步:创建eval cases

创建至少 6 个 eval cases:

  1. 正常路径
  2. 最小输入
  3. 模糊输入
  4. 缺少关键数据
  5. 工具或 reference 不可用
  6. 超出范围请求
  7. 对抗性或安全风险请求(如适用)
  8. 效用对比:同一任务在有 Skill 和无 Skill 下的执行质量对比。通过标准:有 Skill 时输出质量 ≥ 无 Skill 时。若出现退化,说明 Skill 引入了负迁移,需回到第6步检查失败机制编码是否误导了消费方。

每个 eval case 应包含:

  • 用户请求
  • 预期行为
  • 通过标准
  • 失败迹象

第10步:审查技术写作质量与效用维度

执行 references/self-editing-protocol.md 中定义的四轮 self-editing 审查协议,外加第五轮效用维度检查:

第一轮:用词检查。 扫描模糊词并替换为可衡量的标准。

第二轮:Style guide 对标。 检查术语一致性、任务导向标题、段落聚焦和结构,以 references/technical-writing-rules.md 作为 style guide。

第三轮:Agent 初次阅读审查。 从第一次看到这份文档的 Agent 视角重新通读。执行复述测试:如果任何指令可以被复述为两种不同的意思,则该指令有歧义。

第四轮:Eval cases 回查。 对于第9步中的每个 eval case,验证 Skill 中是否明确说明了如何处理。补充遗漏的处理逻辑,重复直到所有 eval cases 都被覆盖。

第五轮:效用维度检查。 使用 references/skill-utility-rubric.md 中的三维准则逐条审查 Skill:

  1. 失败机制编码:Skill 是否识别了 Agent 在该领域为何失败?识别的是根因而非表象?
  2. 可执行具体性:指导是否步骤级具体,引用了领域对象和工具?能否直接转化为动作?
  3. 高风险动作黑名单:是否明确禁止了特定的有害行为模式?每条禁止是否有原因说明?

五轮均无遗留问题后,Skill 才算完成。

第11步:打包结果

交付Skill时,提供:

  • 建议的文件夹结构
  • 最终的 SKILL.md
  • 建议的 references/ 文件
  • 建议的 scripts/ 文件(如有)
  • 建议的 assets/ 文件(如有)
  • eval cases
  • 已知假设
  • 建议的下一次迭代

Reference 使用

当Skill变得过长或难以维护时使用 references。

建议的 references:

  • references/skill-architecture.md —— 定义10层Skill架构
  • references/technical-writing-rules.md —— 将 Google 技术写作原则转化为Skill写作规则
  • references/self-editing-protocol.md —— 基于 Google Technical Writing Two 的四轮 self-editing 审查协议
  • references/reliability-patterns.md —— 应用于Skill可靠性设计的 SRE 模式
  • references/failure-modes.md —— 常见故障模式及修复
  • references/description-trigger-guide.md —— 如何编写触发描述
  • references/eval-design.md —— 如何为Skill设计eval cases
  • references/security-review.md —— 发布Skill前的安全检查清单
  • references/output-templates.md —— 标准输出模板
  • references/skill-utility-rubric.md —— 基于 SkillLens 实证验证的三维效用评估准则(失败机制编码、可执行具体性、高风险动作黑名单),用于第10步第五轮审查和 Skill 变体对比
  • references/eval-cases-self.md —— 本 Skill 自身的 eval cases(7 个测试场景)

不要将长长的外部材料复制到 references 中。总结原则并将其改编为可操作的规则。

输出格式

在创建新的高级Skill时,按以下结构输出结果:

1. Skill设计摘要
2. 假设
3. 文件夹结构
4. SKILL.md
5. 建议的 references
6. 建议的 scripts/assets
7. eval cases
8. 质量检查清单
9. 下一次迭代建议

在审查现有Skill时,按以下结构输出:

1. 总体诊断
2. 触发描述问题
3. 工作流问题
4. 可靠性缺口
5. Reference/script/assets 机会
6. 安全或工具使用风险
7. 具体的重写建议
8. 修订后的 SKILL.md(如需要)

质量门槛

已完成的Skill只有在以下条件满足时才可接受:

  • 描述可以在不依赖正文内容的情况下触发Skill
  • 目的用一段话说明了做什么、为谁做、什么场景不用
  • 范围明确
  • 工作流可执行
  • 决策规则具体
  • 故障处理已定义
  • 输出格式已指定
  • 至少存在 5 个 eval cases
  • Skill避免使用模糊、不可测试的语言
  • Skill不要求不必要的工具、权限、密钥或网络访问

已完成的Skill在以下情况下不可接受:

  • 仅描述角色设定
  • 依赖宽泛的专业知识但没有工作流
  • 缺少输入缺失时的行为
  • 缺少停止条件
  • 将重要的触发规则隐藏在正文中
  • 告诉 Agent 运行不安全或未经说明的命令
  • 无法用具体示例测试

Skill成熟度等级

在评估或设计Skill时,将其成熟度分类:

等级名称标准
-------------------
Level 1Prompt Skill仅角色设定 + 模糊的任务描述
Level 2Workflow Skill清晰的步骤 + 输出格式
Level 3Reliable Skill输入规则 + 分支 + 故障处理 + 质量检查
Level 4Production Skillreferences + scripts/assets + eval cases + 安全审查 + 迭代机制

Super-skill-creator-zh 的目标是最低 Level 3;对于高价值或复杂任务,目标为 Level 4。

版本历史

共 1 个版本

  • v1.0.0 Initial release 当前
    2026-05-29 22:17 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

ai-agent

Find Skills

root
帮助用户发现和安装智能体技能,当用户询问如「如何做X」、「找X的技能」、「有能做...的吗」等问题时
★ 1,518 📥 574,965
ai-agent

Agent Browser

rez0
用于 AI 代理的浏览器自动化 CLI。当用户需要与网站交互(包括浏览页面、填写表单、点击按钮、截图等)时使用。
★ 865 📥 345,029
ai-agent

self-improving agent

pskoett
记录自身发现以实现自我改进的技能
★ 4,164 📥 936,372