> 定位: 日常 AI 对话中执行任何任务的通用方法论——如何与 AI 协作完成高质量交付
>
> 适用场景: 功能开发、Bug 修复、代码重构、需求分析、文案写作、研究调查、方案规划、学习理解、决策分析
>
> 适用 Agent: 所有 AI 对话界面(ChatGPT、Claude、OpenAI、OpenCode、Claude Code、Hermes、Cursor、Windsurf 等)
>
> 版本: 2.0.0
当出现以下情况时,触发使用本Skill:
在AI对话中直接说明任务和标准,无需特殊命令:
# 直接调用示例
帮我完成:[任务描述]
标准:[成功标准]
约束:[约束条件]
格式:[输出格式]
所有支持AI对话的Agent均可调用:
| # | TDD 铁律 | AI 对话版本 |
|---|---|---|
| --- | --------- | ------------ |
| 1 | 先写失败的测试 | 先定义清楚"什么样的结果算成功"(RED) |
| 2 | 不允许写超出测试需求的代码 | 不允许 AI 提供超出你要求范围的内容(GREEN) |
| 3 | 每写完测试后立即运行,确保没有破坏已有功能 | 每完成一步后确认结果符合预期,再推进下一步(验证) |
传统 TDD(代码):
人 → 写测试 → 看失败 → 写代码 → 看通过 → 重构
AI 对话 TDD:
人 → 定义成功标准(RED) → AI 生成初稿 → 人确认符合标准(GREEN) → 优化完善(REFACTOR)
| 代码 TDD 概念 | AI 对话中的对应 |
|---|---|
| -------------- | ---------------- |
| 测试用例 | 你的验收标准(脑子里的成功画面) |
| 测试框架 | 你对 AI 输出的审视和判断 |
| 产品代码 | AI 生成的内容(文字、代码、分析、方案等) |
| 测试失败 | AI 的输出不符合你的标准 |
| 测试通过 | AI 的输出满足你的标准 |
| 重构 | 在达标基础上优化完善 |
| # | 坑 | 后果 |
|---|---|---|
| --- | ----- | ------ |
| 1 | 不定义清楚成功标准就让 AI 干活 | AI 按自己的理解做,你拿到的东西不是你要的 |
| 2 | 不阶段性确认就让它继续 | 方向错了,走得越远越难回头 |
| 3 | 接受了不符合标准的输出 | 质量不达标,最终交付物有问题 |
| 人的责任 | AI 的能力 |
|---|---|
| --------- | ---------- |
| 定义"成功长什么样"(验收标准) | 快速生成各种可能的内容初稿 |
| 阶段性确认输出是否符合标准 | 快速迭代、修改、补充 |
| 判断内容的质量方向 | 提供多个方案供人选择 |
| 决策最终方案和优化方向 | 执行重复性写作/分析任务 |
| 审查内容是否符合真实意图 | 扩展细节、补充边界情况 |
| 对最终结果负责 | 提供参考和建议 |
核心原则:AI 负责生成,人负责判断。AI 写的东西必须经过人的确认才能信任。
RED = Requirements Established & Defined
在让 AI 做事之前,先把"成功的标准"定义清楚。这个标准就像测试用例——如果 AI 的输出能通过这个"测试",就是成功的。
RED 阶段是最重要的阶段。 据统计,80% 的 AI 对话问题源于 RED 阶段定义不清。
每次让 AI 做事之前,先想清楚这 5 个要素:
1. 背景:我为什么需要这个?解决了什么问题?
2. 任务:我具体要 AI 做什么?
3. 成功标准:什么样的输出算成功?(必须具体可衡量)
4. 约束:有没有什么边界或限制?
5. 格式:输出以什么形式交付?
标准版(复杂任务用):
## 任务背景
[为什么需要这个?解决了什么问题?有什么上下文?]
## 任务
[具体要做什么?用一句话描述,越具体越好]
## 验收标准(必须全部满足,每条都要可衡量)
- [ ] 标准1:具体描述,包含数字或明确结果
- [ ] 标准2:具体描述,包含数字或明确结果
- [ ] 标准3:具体描述,包含数字或明确结果
## 约束(明确边界)
- [ ] 不要做...
- [ ] 避免...
- [ ] 限制范围...
## 输出格式
[文字/代码/表格/大纲/JSON...]
[字数/长度要求]
## 参考示例(如有)
[给 AI 一个参考范例,帮助它理解你要的风格和方向]
快速版(简单任务用):
帮我做:[具体任务]
标准:[成功的样子,越具体越好]
约束:[不要做的事]
格式:[输出格式]
参考:[参考范例,可选]
好的验收标准(可衡量):
✅ "字数在800-1000字"
✅ "包含3个具体案例,每个案例有背景、做法、结果"
✅ "语气轻松,口语化,像朋友聊天"
✅ "输出JSON格式,包含title、content、tags三个字段"
✅ "分析维度:经济、社会、文化、个人各至少2点"
差的验收标准(模糊):
❌ "内容要丰富" → 多少算丰富?
❌ "分析要透彻" → 什么是透彻?
❌ "写得专业一点" → 什么样的算专业?
❌ "不要太差" → 什么是不要太差?
❌ "看着差不多就行" → 差不多是什么?
GREEN = Goal Reached Enhanced Early Now
AI 根据你定义的标准,生成满足要求的最小化输出。
最小化交付: 让 AI 先出一个满足基本要求的版本,不要追求完美。
"作弊"是允许的: 先满足标准,后续可以优化。过度设计是 GREEN 阶段最大的敌人。
GREEN 阶段的目标是"达标",不是"最优"。
1. AI 生成初稿
2. 人对照 RED 标准逐条检查(每条标准都要验证)
3. 满足标准 → GREEN 完成
4. 不满足标准 → 指出具体问题,让 AI 修正
5. 修正后再次检查,直到达标
好的反馈(具体可操作):
✅ "第三点不够具体,需要补充:具体的执行步骤是什么?"
✅ "案例太少,需要再增加2个国内案例"
✅ "太长,压缩到500字以内"
✅ "语气太正式,改成轻松口语风格"
✅ "第一条标准没满足:需要的是价格分析,你写的是功能对比"
✅ "缺少对'用户画像'的分析,这是标准里要求的"
差的反馈(AI 难以处理):
❌ "不够好" → AI 不知道哪里不好
❌ "再来一遍" → 同样的问题会重复出现
❌ "重新写" → 没有指出问题在哪里
❌ "差点意思" → AI 不知道差在哪里
❌ "优化一下" → 不知道优化什么
❌ "好一点" → 什么算好一点?
REFACTOR = Refine Excellence For All Concise Tasks Of Result
在 GREEN 达标的基础上,进行优化——但不改变核心交付物。
| 维度 | GREEN | REFACTOR |
|---|---|---|
| ------ | ------- | ---------- |
| 目标 | 满足标准,达标 | 超出标准,更优 |
| 原则 | 最小化,不多做 | 优化已有,不是新需求 |
| 允许改变 | 满足标准就行 | 可以改变表达方式、结构 |
| 不允许 | 添加新内容 | 改变核心结论或事实 |
| 什么时候做 | 第一轮输出 | GREEN 达标之后 |
需要 REFACTOR 的情况:
不需要 REFACTOR 的情况:
| 任务 | 说明 | 示例 |
|---|---|---|
| ------ | ------ | ------ |
| 精简表达 | 同样的意思,更简洁 | "总而言之、因此、所以" → 直接说结论 |
| 优化结构 | 让逻辑更清晰 | 调整段落顺序,让重点更突出 |
| 补充案例 | 让观点更有说服力 | 增加 1-2 个具体案例 |
| 统一风格 | 让语气、用词一致 | 全篇都用"你"而不是混用"您" |
| 美化格式 | 让排版更专业 | 增加小标题、列表、空白行 |
| 强化开头 | 让开头更有吸引力 | 换成更有冲击力的开场 |
| 改善过渡 | 让段落之间更连贯 | 增加过渡句 |
┌─────────────────────────────────────────────────────┐
│ 开始 │
└─────────────────────────┬───────────────────────────┘
↓
┌─────────────────────────────────────────────────────┐
│ RED:定义成功标准 │
│ - 说清楚做什么 │
│ - 说清楚做成什么样(每条标准可衡量) │
│ - 说清楚不要做什么(约束) │
│ - 说清楚输出格式 │
│ 自检:5个要素都齐全吗? │
└─────────────────────────┬───────────────────────────┘
↓
?
┌───────────┴───────────┐
│ 任务复杂度? │
└───────────┬───────────┘
YES ↓ ↓ NO
┌──────────────┐ ┌─────────────────────┐
│ 单轮直接问 │ │ 分阶段执行 │
│ (简单任务) │ │ RED→GREEN→REFACTOR │
└──────────────┘ └─────────────────────┘
↓
┌─────────────────────────────────────────────────────┐
│ GREEN:获取达标输出 │
│ - AI 生成初稿 │
│ - 人对照 RED 标准逐条检查 │
│ - 不达标 → 具体反馈 → AI修正 → 重新检查 │
│ - 达标 → 进入下一步 │
└─────────────────────────┬───────────────────────────┘
↓
?
┌───────────┴───────────┐
│ 需要优化吗? │
└───────────┬───────────┘
YES ↓ ↓ NO
┌──────────────┐ ┌─────────────────┐
│ REFACTOR │ │ 完成 │
│ 优化完善 │ │ 交付使用 │
└──────────────┘ └─────────────────┘
↓
人确认满意
↓
┌─────────────┐
│ 完成/交付 │
└─────────────┘
简单任务(单轮对话):
→ 直接提需求,快速完成
中等复杂度(RED → GREEN):
→ 标准版 RED + GREEN 验证
高复杂度(RED → GREEN → REFACTOR):
→ 完整三阶段 + 多次迭代
帮我做:[任务]
标准:[成功的样子,越具体越好,可带数字]
约束:[不要做的事]
格式:[输出格式]
参考:[参考范例,可选]
已收到初稿,对照标准检查:
✅ 满足:
- 第X条标准:[描述]
- 第Y条标准:[描述]
❌ 不满足:
- 第X条标准:原因[具体问题]
请修正:[具体要求]
请修正后重新输出。
基础版本已确认,现在优化:
重点:
1. [优化点1]
2. [优化点2]
约束:
- 不改变核心内容
- 不超出字数范围太多
目标:[具体优化目标]
| 任务类型 | 推荐流程 |
|---|---|
| --------- | --------- |
| 简单问答 | 单轮直接问 |
| 有明确要求的内容 | RED → GREEN(两轮) |
| 复杂方案/文档 | RED → GREEN → REFACTOR(三轮) |
| 10页以上长文 | 分章节处理,最后统稿 |
| 不确定要什么 | 让 AI 先提建议,确认后再生成 |
| 重要内容 | RED → GREEN → REFACTOR → GREEN' → REFACTOR' |
是的。 80%的AI对话问题源于RED阶段定义不清。定义清楚成功标准,比生成过程更重要。
允许。 AI可以生成最小化满足标准的输出,即使不是最优解。目标是"达标"而非"最优"。
| GREEN | REFACTOR | |
|---|---|---|
| --- | --- | --- |
| 目标 | 达标 | 更优 |
| 能添加新内容吗? | 可以 | 不可以 |
| 能改变核心结论吗? | 不可以 | 不可以 |
回到RED阶段,重新定义成功标准。问题往往是标准定义不够清晰,而非AI能力不足。
不是。简单任务单轮即可,复杂任务才需要完整的三阶段循环。
本方法论是纯对话流程,不需要执行任何代码,不涉及网络请求或数据外传。
| 维度 | 说明 |
|---|---|
| ------ | ------ |
| 输入验证 | RED阶段定义的验收标准就是隐性的输入验证 |
| 输出验证 | GREEN阶段逐条对照标准检查,确保每条都满足 |
| 阶段性确认 | 每个阶段结束前都需要人确认,不达标不进入下一阶段 |
| 可回滚 | 任何阶段发现问题都可以回到上一阶段重新来 |
| 版本 | 日期 | 变更 |
|---|---|---|
| ------ | ------ | ------ |
| 2.1.0 | 2026-05-25 | 优化显示名称和描述(SEO优化) |
| 2.0.0 | 2026-05-25 | 优化为标准Skill结构,添加完整frontmatter |
| 2.0 | 2025-04-27 | 初始版本发布 |
文档版本:2.1.0
更新日期:2026-05-25
核心能力:AI对话TDD方法论
共 1 个版本