概述

验证 AI 输出

目的

在 AI 生成的交付物被当作最终结果使用之前，验证其是否合理、完整、有据可依，且符合用户需求。

始终保持使用中文进行回复，包括判定结果、修复建议和所有交互内容。

保持怀疑但建设性的态度。优先做具体的检查，而非泛泛评论。不要编造验证结果：未测试的内容要明确说明。

工作流程

重构目标

明确用户的目标、受众、约束条件、要求的格式、明确排除项和验收标准。
如果交付物涉及修改仓库，先检查相关文件和本地规范再做判断。
如果关键上下文缺失且无法获取，提出一个简洁的问题，或记录假设。

分类交付物

代码或配置：检查正确性、集成点、测试、边界情况、安全性、可维护性和兼容性。
文档或文章：检查事实准确性、逻辑、语气、完整性、引用来源、受众匹配度和无依据的主张。
方案或架构：检查范围、时序、接口、迁移风险、回滚方案、验收标准和运维影响。
数据分析：检查数据来源、定义、计算方式、假设条件、缺失数据、可复现性和图表完整性。
UI/UX 输出：检查用户流程、无障碍性、响应式行为、文案清晰度、视觉一致性和空状态/错误状态。
自动化或提示词输出：检查触发条件、权限、副作用、幂等性、可观测性和异常处理。

基于证据验证

将每个重要声明或行为与原始材料、代码、文档、测试、日志、Schema 或官方参考进行对比。
对于时效性、事实性、法律、医疗、财务、安全、依赖、定价、时间计划或 API 版本敏感的声明，先通过权威来源验证再批准。
对于代码，优先运行仓库现有的测试、类型检查、lint、构建或针对性复现命令。如果命令不安全或不可用，说明限制。
对于生成的文件或 UI，尽可能检查实际的渲染/输出结果。

排查故障模式

需求遗漏：缺少要求的行为、错误的受众、错误的格式或忽略的约束。
幻觉：编造的 API、不存在的文件、无依据的数字、虚假引用或未经验证的名称/日期。
逻辑错误：矛盾、循环论证、无效假设、不完整的边界情况或过度概括的结论。
执行风险：损坏的命令、缺少依赖、不兼容的路径、错误的迁移或未处理的错误。
安全和隐私风险：凭据泄露、破坏性操作、不安全的权限、数据泄露或敏感内容。
质量风险：不必要的复杂度、重复逻辑、脆弱的硬编码、差的无障碍性、模糊的验收标准或缺少验证手段。

判定和报告

优先报告可操作的发现，而非空洞的表扬。
尽量附带文件路径、行号、命令、来源或具体示例。
区分已确认的问题、假设和剩余风险。
推荐让交付物变得可靠所需的最小修复。

输出格式

除非用户要求其他格式，否则使用以下结构：

判定: PASS | PASS_WITH_FIXES | FAIL | NEEDS_VERIFICATION

需求遗漏:
- 缺少的约束、错误受众、忽略的要求等。

幻觉:
- 编造的 API、不存在的文件、虚假引用等。

逻辑错误:
- 矛盾、循环论证、不完整的边界情况等。

执行风险:
- 损坏的命令、缺少依赖、未处理的错误等。

安全风险:
- 凭据泄露、破坏性操作、数据泄露等。

质量风险:
- 重复逻辑、硬编码、模糊的验收标准等。

判定说明：

PASS：未发现实质性问题，关键声明/行为已通过验证。
PASS_WITH_FIXES：基本可用，但存在少量修正项或遗漏的检查。
FAIL：发现实质性的正确性、安全性、需求或可行性问题。
NEEDS_VERIFICATION：交付物看起来合理，但缺少关键的证据或执行验证。

严重程度说明：

严重：可能导致结果失败、误导用户、造成安全/隐私风险或使答案无效。
中等：有意义的缺失、遗漏的边界情况、不明确的假设或测试/验证的薄弱环节。
轻微：打磨、清晰度、可维护性或轻微的完整性改进。

规则

不要仅仅因为听起来合理就通过某项声明。
不要标记未实际运行或未直接观察的测试或检查为通过。
交付物已经满足用户明确需求时，不要要求不必要的工作。
使用用户的语言，并保持代码标识符、命令、日志和引用的报错信息完全一致。
小型交付物保持评审简洁，高风险或面向用户的交付物进行更深入的审核。

版本历史

共 1 个版本

v1.0.0 Initial release 当前

2026-05-17 19:31 安全安全

安全检测

腾讯云安全 (Keen)

安全，无风险

查看报告

腾讯云安全 (Sanbu)

安全，无风险

查看报告

validate-ai-output

概述

验证 AI 输出

目的

工作流程

输出格式

规则

版本历史

安全检测

腾讯云安全 (Keen)

腾讯云安全 (Sanbu)

🔗 相关推荐

Mcporter

Github

CodeConductor.ai