AI对话TDD工作流专家
定位: 日常 AI 对话中执行任何任务的通用方法论——如何与 AI 协作完成高质量交付
适用场景: 功能开发、Bug 修复、代码重构、需求分析、文案写作、研究调查、方案规划、学习理解、决策分析
适用 Agent: 所有 AI 对话界面(ChatGPT、Claude、OpenAI、OpenCode、Claude Code、Hermes、Cursor、Windsurf 等)
版本: 2.0.0
触发调用方式
何时调用本Skill
当出现以下情况时,触发使用本Skill:
- 需要AI完成具体任务时 - 有明确交付物要求(文档、代码、方案等)
- 任务较复杂需分阶段时 - 简单一句话无法描述清楚的任务
- 对输出质量有较高要求时 - 需要确保AI输出符合特定标准
- 需要迭代优化时 - 初稿不满足要求,需要AI修正
调用方式
在AI对话中直接说明任务和标准,无需特殊命令:
# 直接调用示例
帮我完成:[任务描述]
标准:[成功标准]
约束:[约束条件]
格式:[输出格式]
适用Agent触发
所有支持AI对话的Agent均可调用:
- Claude Code(命令行对话)
- ChatGPT / Claude Web
- Cursor / Windsurf
- OpenAI Codex
- Hermes Agent
一、核心原理:为什么 AI 对话也需要 TDD
1.1 TDD 的三条铁律在 AI 对话中同样有效
| # | TDD 铁律 | AI 对话版本 | |---|---------|------------| | 1 | 先写失败的测试 | 先定义清楚"什么样的结果算成功"(RED) | | 2 | 不允许写超出测试需求的代码 | 不允许 AI 提供超出你要求范围的内容(GREEN) | | 3 | 每写完测试后立即运行,确保没有破坏已有功能 | 每完成一步后确认结果符合预期,再推进下一步(验证) |
1.2 传统 TDD vs AI 对话 TDD
传统 TDD(代码):
人 → 写测试 → 看失败 → 写代码 → 看通过 → 重构
AI 对话 TDD:
人 → 定义成功标准(RED) → AI 生成初稿 → 人确认符合标准(GREEN) → 优化完善(REFACTOR)
1.3 关键映射关系
| 代码 TDD 概念 | AI 对话中的对应 | |--------------|----------------| | 测试用例 | 你的验收标准(脑子里的成功画面) | | 测试框架 | 你对 AI 输出的审视和判断 | | 产品代码 | AI 生成的内容(文字、代码、分析、方案等) | | 测试失败 | AI 的输出不符合你的标准 | | 测试通过 | AI 的输出满足你的标准 | | 重构 | 在达标基础上优化完善 |
1.4 AI 对话中最大的三个坑
| # | 坑 | 后果 | |---|-----|------| | 1 | 不定义清楚成功标准就让 AI 干活 | AI 按自己的理解做,你拿到的东西不是你要的 | | 2 | 不阶段性确认就让它继续 | 方向错了,走得越远越难回头 | | 3 | 接受了不符合标准的输出 | 质量不达标,最终交付物有问题 |
1.5 人与 AI 的分工
| 人的责任 | AI 的能力 | |---------|----------| | 定义"成功长什么样"(验收标准) | 快速生成各种可能的内容初稿 | | 阶段性确认输出是否符合标准 | 快速迭代、修改、补充 | | 判断内容的质量方向 | 提供多个方案供人选择 | | 决策最终方案和优化方向 | 执行重复性写作/分析任务 | | 审查内容是否符合真实意图 | 扩展细节、补充边界情况 | | 对最终结果负责 | 提供参考和建议 |
核心原则:AI 负责生成,人负责判断。AI 写的东西必须经过人的确认才能信任。
二、RED 阶段:定义清楚成功标准
2.1 什么是 RED 阶段
RED = Requirements Established & Defined
在让 AI 做事之前,先把"成功的标准"定义清楚。这个标准就像测试用例——如果 AI 的输出能通过这个"测试",就是成功的。
RED 阶段是最重要的阶段。 据统计,80% 的 AI 对话问题源于 RED 阶段定义不清。
2.2 RED 阶段的核心要素
每次让 AI 做事之前,先想清楚这 5 个要素:
1. 背景:我为什么需要这个?解决了什么问题?
2. 任务:我具体要 AI 做什么?
3. 成功标准:什么样的输出算成功?(必须具体可衡量)
4. 约束:有没有什么边界或限制?
5. 格式:输出以什么形式交付?
2.3 RED Prompt 模板
标准版(复杂任务用):
## 任务背景
[为什么需要这个?解决了什么问题?有什么上下文?]
## 任务
[具体要做什么?用一句话描述,越具体越好]
## 验收标准(必须全部满足,每条都要可衡量)
- [ ] 标准1:具体描述,包含数字或明确结果
- [ ] 标准2:具体描述,包含数字或明确结果
- [ ] 标准3:具体描述,包含数字或明确结果
## 约束(明确边界)
- [ ] 不要做...
- [ ] 避免...
- [ ] 限制范围...
## 输出格式
[文字/代码/表格/大纲/JSON...]
[字数/长度要求]
## 参考示例(如有)
[给 AI 一个参考范例,帮助它理解你要的风格和方向]
快速版(简单任务用):
帮我做:[具体任务]
标准:[成功的样子,越具体越好]
约束:[不要做的事]
格式:[输出格式]
参考:[参考范例,可选]
2.4 什么是好的验收标准
好的验收标准(可衡量):
✅ "字数在800-1000字"
✅ "包含3个具体案例,每个案例有背景、做法、结果"
✅ "语气轻松,口语化,像朋友聊天"
✅ "输出JSON格式,包含title、content、tags三个字段"
✅ "分析维度:经济、社会、文化、个人各至少2点"
差的验收标准(模糊):
❌ "内容要丰富" → 多少算丰富?
❌ "分析要透彻" → 什么是透彻?
❌ "写得专业一点" → 什么样的算专业?
❌ "不要太差" → 什么是不要太差?
❌ "看着差不多就行" → 差不多是什么?
三、GREEN 阶段:获取最小化达标输出
3.1 什么是 GREEN 阶段
GREEN = Goal Reached Enhanced Early Now
AI 根据你定义的标准,生成满足要求的最小化输出。
3.2 GREEN 阶段的核心原则
最小化交付: 让 AI 先出一个满足基本要求的版本,不要追求完美。
"作弊"是允许的: 先满足标准,后续可以优化。过度设计是 GREEN 阶段最大的敌人。
GREEN 阶段的目标是"达标",不是"最优"。
3.3 GREEN 阶段的验证流程
1. AI 生成初稿
2. 人对照 RED 标准逐条检查(每条标准都要验证)
3. 满足标准 → GREEN 完成
4. 不满足标准 → 指出具体问题,让 AI 修正
5. 修正后再次检查,直到达标
3.4 GREEN 阶段的反馈技巧
好的反馈(具体可操作):
✅ "第三点不够具体,需要补充:具体的执行步骤是什么?"
✅ "案例太少,需要再增加2个国内案例"
✅ "太长,压缩到500字以内"
✅ "语气太正式,改成轻松口语风格"
✅ "第一条标准没满足:需要的是价格分析,你写的是功能对比"
✅ "缺少对'用户画像'的分析,这是标准里要求的"
差的反馈(AI 难以处理):
❌ "不够好" → AI 不知道哪里不好
❌ "再来一遍" → 同样的问题会重复出现
❌ "重新写" → 没有指出问题在哪里
❌ "差点意思" → AI 不知道差在哪里
❌ "优化一下" → 不知道优化什么
❌ "好一点" → 什么算好一点?
四、REFACTOR 阶段:优化完善
4.1 什么是 REFACTOR 阶段
REFACTOR = Refine Excellence For All Concise Tasks Of Result
在 GREEN 达标的基础上,进行优化——但不改变核心交付物。
4.2 REFACTOR 与 GREEN 的区别
| 维度 | GREEN | REFACTOR | |------|-------|----------| | 目标 | 满足标准,达标 | 超出标准,更优 | | 原则 | 最小化,不多做 | 优化已有,不是新需求 | | 允许改变 | 满足标准就行 | 可以改变表达方式、结构 | | 不允许 | 添加新内容 | 改变核心结论或事实 | | 什么时候做 | 第一轮输出 | GREEN 达标之后 |
4.3 什么时候需要 REFACTOR
需要 REFACTOR 的情况:
- GREEN 达标了,但你想让质量更好
- 内容技术上正确,但表达不够清晰
- 结构合理,但不够吸引人
- 有多余废话,需要精简
不需要 REFACTOR 的情况:
- GREEN 勉强达标,但时间紧迫,先凑合用
- 内容本身已经足够好
- 后续还有人工编辑,不需要 AI 优化
4.4 REFACTOR 的常见任务
| 任务 | 说明 | 示例 | |------|------|------| | 精简表达 | 同样的意思,更简洁 | "总而言之、因此、所以" → 直接说结论 | | 优化结构 | 让逻辑更清晰 | 调整段落顺序,让重点更突出 | | 补充案例 | 让观点更有说服力 | 增加 1-2 个具体案例 | | 统一风格 | 让语气、用词一致 | 全篇都用"你"而不是混用"您" | | 美化格式 | 让排版更专业 | 增加小标题、列表、空白行 | | 强化开头 | 让开头更有吸引力 | 换成更有冲击力的开场 | | 改善过渡 | 让段落之间更连贯 | 增加过渡句 |
五、AI 对话 TDD 完整流程
5.1 标准流程图
┌─────────────────────────────────────────────────────┐
│ 开始 │
└─────────────────────────┬───────────────────────────┘
↓
┌─────────────────────────────────────────────────────┐
│ RED:定义成功标准 │
│ - 说清楚做什么 │
│ - 说清楚做成什么样(每条标准可衡量) │
│ - 说清楚不要做什么(约束) │
│ - 说清楚输出格式 │
│ 自检:5个要素都齐全吗? │
└─────────────────────────┬───────────────────────────┘
↓
?
┌───────────┴───────────┐
│ 任务复杂度? │
└───────────┬───────────┘
YES ↓ ↓ NO
┌──────────────┐ ┌─────────────────────┐
│ 单轮直接问 │ │ 分阶段执行 │
│ (简单任务) │ │ RED→GREEN→REFACTOR │
└──────────────┘ └─────────────────────┘
↓
┌─────────────────────────────────────────────────────┐
│ GREEN:获取达标输出 │
│ - AI 生成初稿 │
│ - 人对照 RED 标准逐条检查 │
│ - 不达标 → 具体反馈 → AI修正 → 重新检查 │
│ - 达标 → 进入下一步 │
└─────────────────────────┬───────────────────────────┘
↓
?
┌───────────┴───────────┐
│ 需要优化吗? │
└───────────┬───────────┘
YES ↓ ↓ NO
┌──────────────┐ ┌─────────────────┐
│ REFACTOR │ │ 完成 │
│ 优化完善 │ │ 交付使用 │
└──────────────┘ └─────────────────┘
↓
人确认满意
↓
┌─────────────┐
│ 完成/交付 │
└─────────────┘
5.2 判断任务复杂度
简单任务(单轮对话):
- 简单问答(定义、解释、查找)
- 格式转换(JSON转表格等)
- 简短文案(1-2段)
- 快速信息查询
- 简单计算
→ 直接提需求,快速完成
中等复杂度(RED → GREEN):
- 有明确多条标准的内容
- 有格式要求的输出
- 需要真实信息的研究
- 需要多版本选择
- 简单文案/邮件/消息
→ 标准版 RED + GREEN 验证
高复杂度(RED → GREEN → REFACTOR):
- 完整方案/文档/报告
- 代码实现和测试
- 系统设计
- 多章节长文
- 需要精修的重要内容
- 决策分析报告
→ 完整三阶段 + 多次迭代
六、快速参考卡
RED 快速模板
帮我做:[任务]
标准:[成功的样子,越具体越好,可带数字]
约束:[不要做的事]
格式:[输出格式]
参考:[参考范例,可选]
GREEN 反馈模板
已收到初稿,对照标准检查:
✅ 满足:
- 第X条标准:[描述]
- 第Y条标准:[描述]
❌ 不满足:
- 第X条标准:原因[具体问题]
请修正:[具体要求]
请修正后重新输出。
REFACTOR 快速模板
基础版本已确认,现在优化:
重点:
1. [优化点1]
2. [优化点2]
约束:
- 不改变核心内容
- 不超出字数范围太多
目标:[具体优化目标]
任务复杂度判断
| 任务类型 | 推荐流程 | |---------|---------| | 简单问答 | 单轮直接问 | | 有明确要求的内容 | RED → GREEN(两轮) | | 复杂方案/文档 | RED → GREEN → REFACTOR(三轮) | | 10页以上长文 | 分章节处理,最后统稿 | | 不确定要什么 | 让 AI 先提建议,确认后再生成 | | 重要内容 | RED → GREEN → REFACTOR → GREEN' → REFACTOR' |
七、FAQ 与常见问题
Q1: RED阶段最重要吗?
是的。 80%的AI对话问题源于RED阶段定义不清。定义清楚成功标准,比生成过程更重要。
Q2: 什么时候应该停止迭代?
- GREEN阶段:所有验收标准都满足时停止
- REFACTOR阶段:达到"超出标准"的程度时停止,不必追求完美
Q3: GREEN阶段允许"作弊"吗?
允许。 AI可以生成最小化满足标准的输出,即使不是最优解。目标是"达标"而非"最优"。
Q4: REFACTOR和GREEN的区别是什么?
| | GREEN | REFACTOR | |---|---|---| | 目标 | 达标 | 更优 | | 能添加新内容吗? | 可以 | 不可以 | | 能改变核心结论吗? | 不可以 | 不可以 |
Q5: 如果AI输出完全不达标怎么办?
回到RED阶段,重新定义成功标准。问题往往是标准定义不够清晰,而非AI能力不足。
Q6: 所有任务都需要三阶段吗?
不是。简单任务单轮即可,复杂任务才需要完整的三阶段循环。
八、安全与信任机制
8.1 使用安全
本方法论是纯对话流程,不需要执行任何代码,不涉及网络请求或数据外传。
8.2 信任机制
| 维度 | 说明 | |------|------| | 输入验证 | RED阶段定义的验收标准就是隐性的输入验证 | | 输出验证 | GREEN阶段逐条对照标准检查,确保每条都满足 | | 阶段性确认 | 每个阶段结束前都需要人确认,不达标不进入下一阶段 | | 可回滚 | 任何阶段发现问题都可以回到上一阶段重新来 |
8.3 适用边界
- 适用于文字/代码/分析/方案等软输出任务
- 不适用于需要实时数据或网络请求的任务
- 重要任务建议保留完整的RED→GREEN→REFACTOR记录
版本历史
| 版本 | 日期 | 变更 | |------|------|------| | 2.1.0 | 2026-05-25 | 优化显示名称和描述(SEO优化) | | 2.0.0 | 2026-05-25 | 优化为标准Skill结构,添加完整frontmatter | | 2.0 | 2025-04-27 | 初始版本发布 |
文档版本:2.1.0 更新日期:2026-05-25 核心能力:AI对话TDD方法论
Scan to join WeChat group