AI对话TDD工作流专家

> 定位： 日常 AI 对话中执行任何任务的通用方法论——如何与 AI 协作完成高质量交付

> 适用场景： 功能开发、Bug 修复、代码重构、需求分析、文案写作、研究调查、方案规划、学习理解、决策分析

> 适用 Agent： 所有 AI 对话界面（ChatGPT、Claude、OpenAI、OpenCode、Claude Code、Hermes、Cursor、Windsurf 等）

> 版本： 2.0.0

触发调用方式

何时调用本Skill

当出现以下情况时，触发使用本Skill：

需要AI完成具体任务时 - 有明确交付物要求（文档、代码、方案等）
任务较复杂需分阶段时 - 简单一句话无法描述清楚的任务
对输出质量有较高要求时 - 需要确保AI输出符合特定标准
需要迭代优化时 - 初稿不满足要求，需要AI修正

调用方式

在AI对话中直接说明任务和标准，无需特殊命令：

# 直接调用示例
帮我完成：[任务描述]
标准：[成功标准]
约束：[约束条件]
格式：[输出格式]

适用Agent触发

所有支持AI对话的Agent均可调用：

Claude Code（命令行对话）
ChatGPT / Claude Web
Cursor / Windsurf
OpenAI Codex
Hermes Agent

一、核心原理：为什么 AI 对话也需要 TDD

1.1 TDD 的三条铁律在 AI 对话中同样有效

#	TDD 铁律	AI 对话版本
---	---------	------------
1	先写失败的测试	先定义清楚"什么样的结果算成功"（RED）
2	不允许写超出测试需求的代码	不允许 AI 提供超出你要求范围的内容（GREEN）
3	每写完测试后立即运行，确保没有破坏已有功能	每完成一步后确认结果符合预期，再推进下一步（验证）

1.2 传统 TDD vs AI 对话 TDD

传统 TDD（代码）：
  人 → 写测试 → 看失败 → 写代码 → 看通过 → 重构

AI 对话 TDD：
  人 → 定义成功标准(RED) → AI 生成初稿 → 人确认符合标准(GREEN) → 优化完善(REFACTOR)

1.3 关键映射关系

代码 TDD 概念	AI 对话中的对应
--------------	----------------
测试用例	你的验收标准（脑子里的成功画面）
测试框架	你对 AI 输出的审视和判断
产品代码	AI 生成的内容（文字、代码、分析、方案等）
测试失败	AI 的输出不符合你的标准
测试通过	AI 的输出满足你的标准
重构	在达标基础上优化完善

1.4 AI 对话中最大的三个坑

#	坑	后果
---	-----	------
1	不定义清楚成功标准就让 AI 干活	AI 按自己的理解做，你拿到的东西不是你要的
2	不阶段性确认就让它继续	方向错了，走得越远越难回头
3	接受了不符合标准的输出	质量不达标，最终交付物有问题

1.5 人与 AI 的分工

人的责任	AI 的能力
---------	----------
定义"成功长什么样"（验收标准）	快速生成各种可能的内容初稿
阶段性确认输出是否符合标准	快速迭代、修改、补充
判断内容的质量方向	提供多个方案供人选择
决策最终方案和优化方向	执行重复性写作/分析任务
审查内容是否符合真实意图	扩展细节、补充边界情况
对最终结果负责	提供参考和建议

核心原则：AI 负责生成，人负责判断。AI 写的东西必须经过人的确认才能信任。

二、RED 阶段：定义清楚成功标准

2.1 什么是 RED 阶段

RED = Requirements Established & Defined

在让 AI 做事之前，先把"成功的标准"定义清楚。这个标准就像测试用例——如果 AI 的输出能通过这个"测试"，就是成功的。

RED 阶段是最重要的阶段。 据统计，80% 的 AI 对话问题源于 RED 阶段定义不清。

2.2 RED 阶段的核心要素

每次让 AI 做事之前，先想清楚这 5 个要素：

1. 背景：我为什么需要这个？解决了什么问题？
2. 任务：我具体要 AI 做什么？
3. 成功标准：什么样的输出算成功？（必须具体可衡量）
4. 约束：有没有什么边界或限制？
5. 格式：输出以什么形式交付？

2.3 RED Prompt 模板

标准版（复杂任务用）：

## 任务背景
[为什么需要这个？解决了什么问题？有什么上下文？]

## 任务
[具体要做什么？用一句话描述，越具体越好]

## 验收标准（必须全部满足，每条都要可衡量）
- [ ] 标准1：具体描述，包含数字或明确结果
- [ ] 标准2：具体描述，包含数字或明确结果
- [ ] 标准3：具体描述，包含数字或明确结果

## 约束（明确边界）
- [ ] 不要做...
- [ ] 避免...
- [ ] 限制范围...

## 输出格式
[文字/代码/表格/大纲/JSON...]
[字数/长度要求]

## 参考示例（如有）
[给 AI 一个参考范例，帮助它理解你要的风格和方向]

快速版（简单任务用）：

帮我做：[具体任务]
标准：[成功的样子，越具体越好]
约束：[不要做的事]
格式：[输出格式]
参考：[参考范例，可选]

2.4 什么是好的验收标准

好的验收标准（可衡量）：

✅ "字数在800-1000字"
✅ "包含3个具体案例，每个案例有背景、做法、结果"
✅ "语气轻松，口语化，像朋友聊天"
✅ "输出JSON格式，包含title、content、tags三个字段"
✅ "分析维度：经济、社会、文化、个人各至少2点"

差的验收标准（模糊）：

❌ "内容要丰富" → 多少算丰富？
❌ "分析要透彻" → 什么是透彻？
❌ "写得专业一点" → 什么样的算专业？
❌ "不要太差" → 什么是不要太差？
❌ "看着差不多就行" → 差不多是什么？

三、GREEN 阶段：获取最小化达标输出

3.1 什么是 GREEN 阶段

GREEN = Goal Reached Enhanced Early Now

AI 根据你定义的标准，生成满足要求的最小化输出。

3.2 GREEN 阶段的核心原则

最小化交付： 让 AI 先出一个满足基本要求的版本，不要追求完美。

"作弊"是允许的： 先满足标准，后续可以优化。过度设计是 GREEN 阶段最大的敌人。

GREEN 阶段的目标是"达标"，不是"最优"。

3.3 GREEN 阶段的验证流程

1. AI 生成初稿
2. 人对照 RED 标准逐条检查（每条标准都要验证）
3. 满足标准 → GREEN 完成
4. 不满足标准 → 指出具体问题，让 AI 修正
5. 修正后再次检查，直到达标

3.4 GREEN 阶段的反馈技巧

好的反馈（具体可操作）：

✅ "第三点不够具体，需要补充：具体的执行步骤是什么？"
✅ "案例太少，需要再增加2个国内案例"
✅ "太长，压缩到500字以内"
✅ "语气太正式，改成轻松口语风格"
✅ "第一条标准没满足：需要的是价格分析，你写的是功能对比"
✅ "缺少对'用户画像'的分析，这是标准里要求的"

差的反馈（AI 难以处理）：

❌ "不够好" → AI 不知道哪里不好
❌ "再来一遍" → 同样的问题会重复出现
❌ "重新写" → 没有指出问题在哪里
❌ "差点意思" → AI 不知道差在哪里
❌ "优化一下" → 不知道优化什么
❌ "好一点" → 什么算好一点？

四、REFACTOR 阶段：优化完善

4.1 什么是 REFACTOR 阶段

REFACTOR = Refine Excellence For All Concise Tasks Of Result

在 GREEN 达标的基础上，进行优化——但不改变核心交付物。

4.2 REFACTOR 与 GREEN 的区别

维度	GREEN	REFACTOR
------	-------	----------
目标	满足标准，达标	超出标准，更优
原则	最小化，不多做	优化已有，不是新需求
允许改变	满足标准就行	可以改变表达方式、结构
不允许	添加新内容	改变核心结论或事实
什么时候做	第一轮输出	GREEN 达标之后

4.3 什么时候需要 REFACTOR

需要 REFACTOR 的情况：

GREEN 达标了，但你想让质量更好
内容技术上正确，但表达不够清晰
结构合理，但不够吸引人
有多余废话，需要精简

不需要 REFACTOR 的情况：

GREEN 勉强达标，但时间紧迫，先凑合用
内容本身已经足够好
后续还有人工编辑，不需要 AI 优化

4.4 REFACTOR 的常见任务

任务	说明	示例
------	------	------
精简表达	同样的意思，更简洁	"总而言之、因此、所以" → 直接说结论
优化结构	让逻辑更清晰	调整段落顺序，让重点更突出
补充案例	让观点更有说服力	增加 1-2 个具体案例
统一风格	让语气、用词一致	全篇都用"你"而不是混用"您"
美化格式	让排版更专业	增加小标题、列表、空白行
强化开头	让开头更有吸引力	换成更有冲击力的开场
改善过渡	让段落之间更连贯	增加过渡句

五、AI 对话 TDD 完整流程

5.1 标准流程图

┌─────────────────────────────────────────────────────┐
│                     开始                             │
└─────────────────────────┬───────────────────────────┘
                          ↓
┌─────────────────────────────────────────────────────┐
│  RED：定义成功标准                                  │
│  - 说清楚做什么                                      │
│  - 说清楚做成什么样（每条标准可衡量）                  │
│  - 说清楚不要做什么（约束）                            │
│  - 说清楚输出格式                                    │
│  自检：5个要素都齐全吗？                             │
└─────────────────────────┬───────────────────────────┘
                          ↓
                         ？
              ┌───────────┴───────────┐
              │ 任务复杂度？           │
              └───────────┬───────────┘
                    YES ↓         ↓ NO
              ┌──────────────┐    ┌─────────────────────┐
              │ 单轮直接问    │    │ 分阶段执行           │
              │ （简单任务）   │    │ RED→GREEN→REFACTOR  │
              └──────────────┘    └─────────────────────┘
                          ↓
┌─────────────────────────────────────────────────────┐
│  GREEN：获取达标输出                                │
│  - AI 生成初稿                                      │
│  - 人对照 RED 标准逐条检查                            │
│  - 不达标 → 具体反馈 → AI修正 → 重新检查              │
│  - 达标 → 进入下一步                                 │
└─────────────────────────┬───────────────────────────┘
                          ↓
                         ？
              ┌───────────┴───────────┐
              │ 需要优化吗？           │
              └───────────┬───────────┘
                YES ↓         ↓ NO
        ┌──────────────┐    ┌─────────────────┐
        │ REFACTOR     │    │ 完成             │
        │ 优化完善      │    │ 交付使用         │
        └──────────────┘    └─────────────────┘
              ↓
         人确认满意
              ↓
        ┌─────────────┐
        │ 完成/交付   │
        └─────────────┘

5.2 判断任务复杂度

简单任务（单轮对话）：

简单问答（定义、解释、查找）
格式转换（JSON转表格等）
简短文案（1-2段）
快速信息查询
简单计算

→ 直接提需求，快速完成

中等复杂度（RED → GREEN）：

有明确多条标准的内容
有格式要求的输出
需要真实信息的研究
需要多版本选择
简单文案/邮件/消息

→ 标准版 RED + GREEN 验证

高复杂度（RED → GREEN → REFACTOR）：

完整方案/文档/报告
代码实现和测试
系统设计
多章节长文
需要精修的重要内容
决策分析报告

→ 完整三阶段 + 多次迭代

六、快速参考卡

RED 快速模板

帮我做：[任务]
标准：[成功的样子，越具体越好，可带数字]
约束：[不要做的事]
格式：[输出格式]
参考：[参考范例，可选]

GREEN 反馈模板

已收到初稿，对照标准检查：

✅ 满足：
- 第X条标准：[描述]
- 第Y条标准：[描述]

❌ 不满足：
- 第X条标准：原因[具体问题]
  请修正：[具体要求]

请修正后重新输出。

REFACTOR 快速模板

基础版本已确认，现在优化：

重点：
1. [优化点1]
2. [优化点2]

约束：
- 不改变核心内容
- 不超出字数范围太多

目标：[具体优化目标]

任务复杂度判断

任务类型	推荐流程
---------	---------
简单问答	单轮直接问
有明确要求的内容	RED → GREEN（两轮）
复杂方案/文档	RED → GREEN → REFACTOR（三轮）
10页以上长文	分章节处理，最后统稿
不确定要什么	让 AI 先提建议，确认后再生成
重要内容	RED → GREEN → REFACTOR → GREEN' → REFACTOR'

七、FAQ 与常见问题

Q1: RED阶段最重要吗？

是的。 80%的AI对话问题源于RED阶段定义不清。定义清楚成功标准，比生成过程更重要。

Q2: 什么时候应该停止迭代？

GREEN阶段：所有验收标准都满足时停止
REFACTOR阶段：达到"超出标准"的程度时停止，不必追求完美

Q3: GREEN阶段允许"作弊"吗？

允许。 AI可以生成最小化满足标准的输出，即使不是最优解。目标是"达标"而非"最优"。

Q4: REFACTOR和GREEN的区别是什么？

	GREEN	REFACTOR
---	---	---
目标	达标	更优
能添加新内容吗？	可以	不可以
能改变核心结论吗？	不可以	不可以

Q5: 如果AI输出完全不达标怎么办？

回到RED阶段，重新定义成功标准。问题往往是标准定义不够清晰，而非AI能力不足。

Q6: 所有任务都需要三阶段吗？

不是。简单任务单轮即可，复杂任务才需要完整的三阶段循环。

八、安全与信任机制

8.1 使用安全

本方法论是纯对话流程，不需要执行任何代码，不涉及网络请求或数据外传。

8.2 信任机制

维度	说明
------	------
输入验证	RED阶段定义的验收标准就是隐性的输入验证
输出验证	GREEN阶段逐条对照标准检查，确保每条都满足
阶段性确认	每个阶段结束前都需要人确认，不达标不进入下一阶段
可回滚	任何阶段发现问题都可以回到上一阶段重新来

8.3 适用边界

适用于文字/代码/分析/方案等软输出任务
不适用于需要实时数据或网络请求的任务
重要任务建议保留完整的RED→GREEN→REFACTOR记录

版本历史

版本	日期	变更
------	------	------
2.1.0	2026-05-25	优化显示名称和描述（SEO优化）
2.0.0	2026-05-25	优化为标准Skill结构，添加完整frontmatter
2.0	2025-04-27	初始版本发布

文档版本：2.1.0

更新日期：2026-05-25

核心能力：AI对话TDD方法论

AI对话质量！专为AI用户设计，融合RED/GREEN/REFACTOR三阶段工作流，让AI输出一次达标。

概述

AI对话TDD工作流专家

触发调用方式

何时调用本Skill

调用方式

适用Agent触发

一、核心原理：为什么 AI 对话也需要 TDD

1.1 TDD 的三条铁律在 AI 对话中同样有效

1.2 传统 TDD vs AI 对话 TDD

1.3 关键映射关系

1.4 AI 对话中最大的三个坑

1.5 人与 AI 的分工

二、RED 阶段：定义清楚成功标准

2.1 什么是 RED 阶段

2.2 RED 阶段的核心要素

2.3 RED Prompt 模板

2.4 什么是好的验收标准

三、GREEN 阶段：获取最小化达标输出

3.1 什么是 GREEN 阶段

3.2 GREEN 阶段的核心原则

3.3 GREEN 阶段的验证流程

3.4 GREEN 阶段的反馈技巧

四、REFACTOR 阶段：优化完善

4.1 什么是 REFACTOR 阶段

4.2 REFACTOR 与 GREEN 的区别

4.3 什么时候需要 REFACTOR

4.4 REFACTOR 的常见任务

五、AI 对话 TDD 完整流程

5.1 标准流程图

5.2 判断任务复杂度

六、快速参考卡

RED 快速模板

GREEN 反馈模板

REFACTOR 快速模板

任务复杂度判断

七、FAQ 与常见问题

Q1: RED阶段最重要吗？

Q2: 什么时候应该停止迭代？

Q3: GREEN阶段允许"作弊"吗？

Q4: REFACTOR和GREEN的区别是什么？

Q5: 如果AI输出完全不达标怎么办？

Q6: 所有任务都需要三阶段吗？

八、安全与信任机制

8.1 使用安全

8.2 信任机制

8.3 适用边界

版本历史

版本历史

安全检测

腾讯云安全 (Keen)

腾讯云安全 (Sanbu)

🔗 相关推荐

永久记忆自动归档系统。每次对话自动记录，语义搜索，跨会话继承。重启不丢、永不覆盖。适用于所有 AI agents。

通用自我反思+自我批评+自我学习记忆系统，为所有AI代理设计(通用所有agnet使用）

剧本人物原型构建技能(提供剧本可以智能进行拆解出剧本中的所有人物，符合剧本人物生成人物精准的9宫格白底图提示词）