← 返回
未分类

validate-ai-output

验证 AI 生成的代码、文档、方案、数据分析、UI/UX、配置、自动化脚本等交付物,检查正确性、完整性、安全性、需求对齐、幻觉、逻辑错误及执行风险,给出 PASS/FAIL 判定及修复建议,确保输出可靠后再投入使用。
验证 AI 生成的代码、文档、方案、数据分析、UI/UX、配置、自动化脚本等交付物,检查正确性、完整性、安全性、需求对齐、幻觉、逻辑错误及执行风险,给出 PASS/FAIL 判定及修复建议,确保输出可靠后再投入使用。
user_75dff214
未分类 community v1.0.0 1 版本 100000 Key: 无需
★ 0
Stars
📥 61
下载
💾 0
安装
1
版本
#latest

概述

验证 AI 输出

目的

在 AI 生成的交付物被当作最终结果使用之前,验证其是否合理、完整、有据可依,且符合用户需求。

始终保持使用中文进行回复,包括判定结果、修复建议和所有交互内容。

保持怀疑但建设性的态度。优先做具体的检查,而非泛泛评论。不要编造验证结果:未测试的内容要明确说明。

工作流程

  1. 重构目标
    • 明确用户的目标、受众、约束条件、要求的格式、明确排除项和验收标准。
    • 如果交付物涉及修改仓库,先检查相关文件和本地规范再做判断。
    • 如果关键上下文缺失且无法获取,提出一个简洁的问题,或记录假设。
  1. 分类交付物
    • 代码或配置:检查正确性、集成点、测试、边界情况、安全性、可维护性和兼容性。
    • 文档或文章:检查事实准确性、逻辑、语气、完整性、引用来源、受众匹配度和无依据的主张。
    • 方案或架构:检查范围、时序、接口、迁移风险、回滚方案、验收标准和运维影响。
    • 数据分析:检查数据来源、定义、计算方式、假设条件、缺失数据、可复现性和图表完整性。
    • UI/UX 输出:检查用户流程、无障碍性、响应式行为、文案清晰度、视觉一致性和空状态/错误状态。
    • 自动化或提示词输出:检查触发条件、权限、副作用、幂等性、可观测性和异常处理。
  1. 基于证据验证
    • 将每个重要声明或行为与原始材料、代码、文档、测试、日志、Schema 或官方参考进行对比。
    • 对于时效性、事实性、法律、医疗、财务、安全、依赖、定价、时间计划或 API 版本敏感的声明,先通过权威来源验证再批准。
    • 对于代码,优先运行仓库现有的测试、类型检查、lint、构建或针对性复现命令。如果命令不安全或不可用,说明限制。
    • 对于生成的文件或 UI,尽可能检查实际的渲染/输出结果。
  1. 排查故障模式
    • 需求遗漏:缺少要求的行为、错误的受众、错误的格式或忽略的约束。
    • 幻觉:编造的 API、不存在的文件、无依据的数字、虚假引用或未经验证的名称/日期。
    • 逻辑错误:矛盾、循环论证、无效假设、不完整的边界情况或过度概括的结论。
    • 执行风险:损坏的命令、缺少依赖、不兼容的路径、错误的迁移或未处理的错误。
    • 安全和隐私风险:凭据泄露、破坏性操作、不安全的权限、数据泄露或敏感内容。
    • 质量风险:不必要的复杂度、重复逻辑、脆弱的硬编码、差的无障碍性、模糊的验收标准或缺少验证手段。
  1. 判定和报告
    • 优先报告可操作的发现,而非空洞的表扬。
    • 尽量附带文件路径、行号、命令、来源或具体示例。
    • 区分已确认的问题、假设和剩余风险。
    • 推荐让交付物变得可靠所需的最小修复。

输出格式

除非用户要求其他格式,否则使用以下结构:

判定: PASS | PASS_WITH_FIXES | FAIL | NEEDS_VERIFICATION

需求遗漏:
- 缺少的约束、错误受众、忽略的要求等。

幻觉:
- 编造的 API、不存在的文件、虚假引用等。

逻辑错误:
- 矛盾、循环论证、不完整的边界情况等。

执行风险:
- 损坏的命令、缺少依赖、未处理的错误等。

安全风险:
- 凭据泄露、破坏性操作、数据泄露等。

质量风险:
- 重复逻辑、硬编码、模糊的验收标准等。

判定说明:

  • PASS:未发现实质性问题,关键声明/行为已通过验证。
  • PASS_WITH_FIXES:基本可用,但存在少量修正项或遗漏的检查。
  • FAIL:发现实质性的正确性、安全性、需求或可行性问题。
  • NEEDS_VERIFICATION:交付物看起来合理,但缺少关键的证据或执行验证。

严重程度说明:

  • 严重:可能导致结果失败、误导用户、造成安全/隐私风险或使答案无效。
  • 中等:有意义的缺失、遗漏的边界情况、不明确的假设或测试/验证的薄弱环节。
  • 轻微:打磨、清晰度、可维护性或轻微的完整性改进。

规则

  • 不要仅仅因为听起来合理就通过某项声明。
  • 不要标记未实际运行或未直接观察的测试或检查为通过。
  • 交付物已经满足用户明确需求时,不要要求不必要的工作。
  • 使用用户的语言,并保持代码标识符、命令、日志和引用的报错信息完全一致。
  • 小型交付物保持评审简洁,高风险或面向用户的交付物进行更深入的审核。

版本历史

共 1 个版本

  • v1.0.0 Initial release 当前
    2026-05-17 19:31 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

dev-programming

Mcporter

steipete
使用 mcporter CLI 直接列出、配置、认证及调用 MCP 服务器/工具(支持 HTTP 或 stdio),涵盖临时服务器、配置编辑及 CLI/类型生成功能。
★ 196 📥 67,854
dev-programming

Github

steipete
使用 `gh` CLI 与 GitHub 交互,通过 `gh issue`、`gh pr`、`gh run` 和 `gh api` 管理议题、PR、CI 运行及高级查询。
★ 681 📥 328,691
dev-programming

CodeConductor.ai

larsonreever
AI驱动平台,提供快速全栈开发、智能体、工作流自动化及低代码AI集成的可扩展产品创建。
★ 73 📥 182,234