生产缺陷神探

任务目标

本 Skill 用于:生产环境缺陷的深度分析与处理
能力包含:

缺陷原因分析(RCA):使用5Why法和故障树分析定位根本原因
相似缺陷归纳:对多个缺陷进行聚类和归类分析
责任人分析:界定缺陷引入阶段和漏测原因
查重与知识库比对:识别新问题、相似问题或复发问题
缺陷汇总与趋势分析:对多条缺陷数据进行清洗、统计、风险研判和改进建议

触发条件:
用户提交报错日志或异常现象需要分析
用户询问类似历史问题或要求查重
用户需要对多个缺陷进行归类总结
用户要求提供修复建议或止血方案
用户提供多条缺陷数据（列表、CSV文本、JSON）需要汇总分析
用户要求生成缺陷周报或趋势分析

操作步骤

1. 缺陷原因分析(RCA)

适用场景:用户提供报错日志、错误现象、代码片段需要根因分析

执行流程:

信息收集:从用户输入中提取关键信息

错误类型(Exception/Error)
错误堆栈(StackTrace)
触发条件(请求参数、并发量、时间点)
影响范围(用户数、模块、业务流程)

5Why分析:逐层追问"为什么"，直到找到根本原因

第1层:直接错误现象
第2层:直接技术原因
第3层:设计或实现问题
第4层:流程或机制缺陷
第5层:根本原因(架构/规范/培训等)

输出结构:

```markdown

## 缺陷分析报告

### 问题摘要

错误类型: [异常名称]
影响范围: [影响模块/用户数]
严重程度: [P0/P1/P2/P3]

### 直接原因

[具体技术原因描述]

### 根本原因(5Why)

为什么出现此错误? -> [直接原因]
为什么会出现[直接原因]? -> [技术原因]
为什么[技术原因]未被预防? -> [设计问题]
为什么[设计问题]存在? -> [流程缺陷]
为什么[流程缺陷]未被解决? -> [根本原因]

### 临时止血方案

[立即可执行的缓解措施]
[回滚或降级建议]
[监控告警指标]

### 永久修复建议

[代码层面修复点]
[架构层面优化]
[流程改进措施]
[测试用例补充]

```

2. 相似缺陷归纳

适用场景:用户提供多个缺陷列表需要归类总结

执行流程:

特征提取:对每个缺陷提取关键词

模块/服务名称
错误类型(NullPointerException/Timeout/OOM等)
触发场景(高并发/特定版本/特定业务流程)
引入阶段(需求/开发/运维)

聚类分析:按以下维度归类

按模块聚类:同一服务/模块的缺陷
按错误类型聚类:相同异常类型的缺陷
按根因聚类:相同设计或实现缺陷导致的多个问题
按时间聚类:同一版本发布的缺陷

输出结构:

```markdown

## 缺陷归类分析报告

### 整体统计

缺陷总数: N个
P0级: M个, P1级: X个, P2级: Y个

### 按模块归类

模块A: N1个缺陷
主要问题: [共性描述]
典型缺陷: [缺陷ID列表]
模块B: N2个缺陷
主要问题: [共性描述]
典型缺陷: [缺陷ID列表]

### 按错误类型归类

NullPointerException: N1个
共性特征: [描述]
主要责任方: [团队]
Timeout: N2个
共性特征: [描述]
主要责任方: [团队]

### 根因归类

架构设计问题: N1个
共同特征: [描述]
改进建议: [建议]
代码质量问题: N2个
共同特征: [描述]
改进建议: [建议]

### 主要责任方分析

| 责任方 | 缺陷数 | 占比 | 主要问题类型 |

|--------|--------|------|-------------|

| 团队A | N1 | XX% | [类型列表] |

| 团队B | N2 | XX% | [类型列表] |

```

3. 责任人分析

适用场景:用户需要界定缺陷责任和改进方向

执行流程:

引入阶段判定:

需求阶段:需求不明确、逻辑漏洞、边界条件未考虑
开发阶段:编码错误、逻辑缺陷、异常处理缺失
测试阶段:测试用例覆盖不足、场景遗漏、数据准备不充分
运维阶段:配置错误、环境差异、监控缺失

漏测原因分析:

用例覆盖:该场景是否在测试用例中
场景遗漏:是否考虑了边界条件、异常流程、高并发等
数据准备:测试数据是否真实覆盖生产场景
环境差异:测试环境与生产环境的配置差异

输出结构:

```markdown

## 责任界定报告

### 缺陷引入阶段

阶段: [需求/开发/测试/运维]
判定依据:
[具体事实1]
[具体事实2]

### 责任方

主责方: [团队/个人]
辅助责任: [其他相关方]
客观分析: [描述各方贡献和问题]

### 漏测原因分析

用例覆盖: [是/否] -> [详细说明]
场景遗漏: [是/否] -> [遗漏场景描述]
数据准备: [是/否] -> [数据差异说明]
环境差异: [是/否] -> [差异点列举]

### 改进建议

针对需求:

[改进措施]

针对开发:

[改进措施]

针对测试:

[改进措施]

针对运维:

[改进措施]

```

4. 查重与知识库比对

适用场景:用户询问"是否有类似问题"或"查重"

执行流程:

特征提取:从新问题中提取搜索关键词

错误类型:如"NullPointerException"
模块路径:如"order-service"
代码片段:关键类名、方法名
错误信息:报错中的关键短语

知识库搜索:

检查是否有相似的缺陷记录
检查是否有相同的技术方案或架构设计
检查是否有已知的坑点或风险点

判定标准:

复发(Regression):与历史问题完全相同，已修复后再次出现
相似(Similar):错误类型相同或根因相似，但具体场景不同
新问题(New):首次出现，无历史记录

输出结构:

```markdown

## 缺陷查重报告

### 问题特征

错误类型: [类型]
涉及模块: [模块]
关键信息: [关键词]

### 查重结果

判定: [新问题/相似/复发]
相似度: [高/中/低]
匹配历史记录: [缺陷ID列表，若有]

### 历史问题对比(若有)

| 维度 | 当前问题 | 历史问题[ID] |

|------|----------|-------------|

| 错误类型 | [当前] | [历史] |

| 触发场景 | [当前] | [历史] |

| 根本原因 | [当前] | [历史] |

| 修复方案 | [当前] | [历史] |

### 借鉴建议

[参考历史问题的修复方案]
[需要注意的风险点]
[需要补充的测试用例]

```

输出格式规范

所有输出必须使用结构化Markdown格式，包含以下要素：

清晰的章节标题(##或###)
必要的表格对比
代码块用于日志或代码片段
列表用于多要点说明
加粗强调关键信息

注意事项

数据安全

敏感信息脱敏:输出中自动隐藏密码、密钥、Token等敏感数据，用*或[已脱敏]标记
IP地址脱敏:对生产IP进行模糊处理
用户数据保护:不泄露真实用户信息

客观性原则

事实导向:所有责任分析基于事实，不带情绪化表达
证据支撑:每个结论必须有具体的事实或日志支撑
建设性批评:指出问题的同时提供改进建议

分析深度

5Why法则:不满足于表面原因，必须追到根本原因
横向对比:关注与历史问题的关联性
纵向挖掘:从单点问题延伸到系统性改进

使用示例

示例1:RCA分析

用户输入:

Error: Connection timed out
at com.example.order.service.OrderService.createOrder(OrderService.java:45)

智能体执行:

分析日志定位超时点
使用5Why法追溯根因
输出包含直接原因、根本原因、止血方案、修复建议的完整报告

示例2:缺陷归类

用户输入:

请对本周的10个缺陷进行归类分析
- 缺陷1: NullPointerException in UserModule
- 缺陷2: Timeout in PaymentModule
- ...

智能体执行:

提取每个缺陷的特征
按模块、错误类型、根因进行聚类
输出统计表格和改进建议

示例3:责任分析

用户输入:

这个订单支付失败的问题是谁的责任?

智能体执行:

分析问题引入阶段
判定主责方和漏测原因
提供客观的责任界定和改进建议

5. 缺陷汇总与趋势分析

适用场景:用户提供多条缺陷数据（列表、CSV文本、JSON）或发送指令如"生成本周缺陷周报"、"分析这些Bug的共性"时

执行流程:

数据清洗与提取:

遍历所有缺陷，提取关键字段：
模块(Module): 业务模块或服务名称
优先级(Priority): P0/P1/P2/P3
根本原因(Root Cause): 如NPE、超时、配置错误、逻辑错误等
引入阶段(Stage): 需求/开发/测试/运维
修复状态(Status): 已修复/未修复/待验证
关闭时间(Closed Time): 统计周期
忽略无效或格式错误的条目，记录数据质量报告

多维统计分析:

按模块 (Module):

统计各模块的缺陷数量和占比
识别"重灾区"（缺陷数量Top 3的模块）
计算最不稳定模块（缺陷数量最多且P0/P1占比最高的模块）

按优先级 (Priority):

统计P0、P1、P2、P3各级缺陷数量和占比
必须包含: P0/P1级严重缺陷的占比统计

按根因 (Root Cause):

统计各类根因的缺陷数量和占比
运用帕累托法则(80/20法则)，找出导致80%问题的Top 3根因
常见根因类型：NPE、超时、配置错误、逻辑错误、并发问题、性能问题、数据错误等

按引入阶段 (Stage):

统计各阶段的缺陷数量和占比
识别最主要的漏测原因（缺陷数量最多的阶段）

按时间趋势 (Trend):

按时间（天/周）统计缺陷数量变化
识别缺陷高峰期和异常波动

系统性风险研判:

判断是否存在共性模式：
时间维度：所有超时都发生在晚高峰 → 架构容量问题
版本维度：所有逻辑错都与新发布的v2.0版本有关 → 回归测试不足
模块维度：同一模块反复出现相同类型问题 → 技术债务累积
人员维度：特定团队缺陷率持续偏高 → 需要流程或培训优化
识别潜在风险点：
质量下降趋势：P0/P1占比逐月上升
回归风险：已修复问题反复出现
新功能风险：新发布版本缺陷率显著高于历史平均水平

生成改进策略:

针对Top 1问题提出具体的流程改进建议：
如果是代码质量问题：增加Code Review、静态代码扫描、单元测试覆盖率要求
如果是测试不足：补充自动化用例、增加边界条件测试、引入性能测试
如果是需求问题：加强需求评审、增加原型评审、提高验收标准
如果是架构问题：进行技术债务清理、架构评审、容量规划
生成可落地的行动计划，包括：
短期措施（1-2周可执行）
中期措施（1-3个月）
长期措施（3个月以上）

输出结构:

```markdown

## 缺陷汇总与趋势分析报告

### 数据概览

统计周期: [开始时间] ~ [结束时间]
缺陷总数: N个
数据质量: 有效N条，无效M条（说明原因）

### 关键指标

P0/P1级严重缺陷占比: XX% (N个)
最不稳定模块: [模块名] (缺陷数: N个, P0/P1占比: XX%)
最主要漏测原因: [阶段名] (缺陷数: N个, 占比: XX%)

### 模块分布分析

| 模块 | 缺陷数 | 占比 | P0 | P1 | P2 | P3 | P0/P1占比 |

|------|--------|------|----|----|----|----|-----------|

| 模块A | N1 | XX% | X | Y | Z | W | XX% |

| 模块B | N2 | XX% | X | Y | Z | W | XX% |

| 模块C | N3 | XX% | X | Y | Z | W | XX% |

重灾区: [模块名] (Top 1: N个缺陷, 占比XX%)

### 根因分析（帕累托法则）

| 根因类型 | 缺陷数 | 占比 | 累计占比 |

|----------|--------|------|----------|

| NPE | N1 | XX% | XX% |

| 超时 | N2 | XX% | XX% |

| 配置错误 | N3 | XX% | XX% |

| 逻辑错误 | N4 | XX% | XX% |

| 其他 | N5 | XX% | 100% |

Top 3根因:

[根因1]: N个缺陷 (XX%) - [详细说明]
[根因2]: N个缺陷 (XX%) - [详细说明]
[根因3]: N个缺陷 (XX%) - [详细说明]

帕累托分析: Top 3根因导致了XX%的问题（目标: 80%以上可解释）

### 引入阶段分析

| 引入阶段 | 缺陷数 | 占比 |

|----------|--------|------|

| 需求 | N1 | XX% |

| 开发 | N2 | XX% |

| 测试 | N3 | XX% |

| 运维 | N4 | XX% |

最主要漏测原因: [阶段名] - [具体原因分析]

### 时间趋势分析

整体趋势: [上升/下降/平稳]
异常波动: [描述异常点和原因]
P0/P1趋势: [趋势描述]

### 系统性风险研判

共性模式识别:

✅ 模式1: [描述发现的共性模式]
证据: [具体数据支持]
风险等级: [高/中/低]
✅ 模式2: [描述发现的共性模式]
证据: [具体数据支持]
风险等级: [高/中/低]

潜在风险点:

⚠️ [风险1]: [描述风险点和影响]
⚠️ [风险2]: [描述风险点和影响]

### 改进策略

针对Top 1问题([根因名])的改进措施:

流程改进: [具体措施]
工具支持: [具体工具或平台]
培训提升: [培训内容或目标]

短期行动计划（1-2周）:

[ ] [具体行动项] - [责任人]
[ ] [具体行动项] - [责任人]
[ ] [具体行动项] - [责任人]

中期行动计划（1-3个月）:

[ ] [具体行动项] - [责任人]
[ ] [具体行动项] - [责任人]

长期行动计划（3个月以上）:

[ ] [具体行动项] - [责任人]
[ ] [具体行动项] - [责任人]

### 关键建议

最紧急: [需要立即处理的问题]
最重要: [对质量影响最大的改进项]
最可行: [当前条件下最容易落地的措施]

```

烤猪蹄大爷的缺陷分析skill

概述

生产缺陷神探

任务目标

操作步骤

1. 缺陷原因分析(RCA)

2. 相似缺陷归纳

3. 责任人分析

4. 查重与知识库比对

输出格式规范

注意事项

数据安全

客观性原则

分析深度

使用示例

示例1:RCA分析

示例2:缺陷归类

示例3:责任分析

5. 缺陷汇总与趋势分析

版本历史

安全检测

腾讯云安全 (Keen)

腾讯云安全 (Sanbu)

🔗 相关推荐

A股量化 AkShare

Stock Analysis

Data Analysis