概述

Anti-Hallucination Skill v2 (认知沙盒版)

更新说明

本版本将术语"真伪库"统一改为"认知沙盒"，避免"真伪"一词可能引起的不适感。

目的

在研究写作和代码生成任务中，最大限度降低 AI 幻觉风险，并通过持久化日志跨会话累计追踪幻觉事件。

> ⚠️ 重要前提：AI 幻觉无法被彻底消除，本 Skill 的目标是检测、标注、记录并最小化幻觉风险。

核心机制

认知沙盒（Verified Knowledge Base）

通过积累已验证的事实，形成可靠的知识库，支持 🟡 待验证内容升级为 🟢 已验证状态。

工作流程：

输出内容时自动标注置信度（🟢🟡🔴）
用户或自我校验发现 🟡/🔴 内容后，记录到幻觉日志
用户提供权威资料后，通过验证流程将内容升级入库
后续输出时优先查询认知沙盒，命中则直接标注 🟢

触发场景

用户要求撰写报告、调研文章、技术文档（研究写作场景）
用户要求生成代码、调用第三方库、实现功能（代码生成场景）
用户明确要求「减少幻觉」「校验内容」「核实事实」
用户要求查看累计幻觉统计数据

核心工作流

所有场景：开始前必做

读取 references/anti-hallucination-protocols.md 中的完整协议
在内部确定本次任务属于哪个场景（研究写作 / 代码生成 / 两者都有）
确认知识来源类型（用户提供的文档 / 训练数据 / 截止后信息）
查询认知沙盒：对待输出的事实，先查询 verify_fact.py query，若命中且已验证则直接标注 🟢

研究写作场景工作流

引用约束：只引用用户提供材料中存在的来源；无来源时使用「建议查找」模板
事实标注：对所有数字、日期、人名、机构名使用三色置信度标注（🟢🟡🔴）
写作前核查：执行 references/anti-hallucination-protocols.md 第 2.2 节的写作核查清单
不确定内容：使用第 2.3 节的不确定性模板替代凭空生成
输出后自我校验：执行第 5 节的四轮自我校验流程

代码生成场景工作流

API 核查：对所有非标准库函数标注置信度，不确定时使用第 3.4 节模板
代码风险注释：在代码块后附加 ⚠️ API 风险注释（格式见 references 第 3.2 节）
代码前核查：执行第 3.3 节的代码生成前检查清单
输出后自我校验：执行第 5 节四轮自我校验流程，重点执行第二轮 API 核查

幻觉事件日志记录

何时记录

在完成自我校验后，若发现以下任一情况，必须调用日志脚本记录：

发现自己使用了无法确认的 API 或函数
引用了无法在用户文档中找到的来源
输出了置信度为 🔴 的内容
被用户指出某处信息有误

记录方式

使用脚本 scripts/hallucination_logger.py：

# 记录一次事件
python ~/.openclaw/workspace/skills/anti-hallucination/scripts/hallucination_logger.py log \
  --type <事件类型> \
  --content "<简短描述发生了什么>" \
  --session "<任务名称或会话描述>"

事件类型（--type 可选值）：

fabricated_citation — 引用了不存在的文献/URL
invented_api — 使用了不存在的函数/方法
false_fact — 陈述了错误的可验证事实
overconfident — 用确定语气表述了不确定信息
date_error — 日期、版本号、数字错误
other — 其他类型

查看统计

# 查看跨会话累计统计
python ~/.openclaw/workspace/skills/anti-hallucination/scripts/hallucination_logger.py stats

# 查看最近记录
python ~/.openclaw/workspace/skills/anti-hallucination/scripts/hallucination_logger.py list --limit 20

日志文件存储位置：~/.openclaw/workspace/hallucination_logs/（跨所有项目持久化）

🟡 转 🟢 验证流程

何时使用

当用户提供了权威资料，要求验证之前标注为 🟡 或 🔴 的内容时，执行以下流程：

验证步骤

查询认知沙盒：先运行 verify_fact.py query 检查是否已存在
提取关键事实：从用户提供的资料中提取可验证的陈述
添加到认知沙盒：使用 verify_fact.py add 入库
更新输出：重新生成内容，将对应事实标注为 🟢

命令参考

# 1. 查询认知沙盒是否已包含某事实
python ~/.openclaw/workspace/skills/anti-hallucination/scripts/verify_fact.py query \
  --fact "Python 3.12 于 2023年10月发布"

# 2. 添加新的已验证事实
python ~/.openclaw/workspace/skills/anti-hallucination/scripts/verify_fact.py add \
  --fact "Python 3.12 于 2023年10月2日发布" \
  --source "https://www.python.org/downloads/release/python-3120/" \
  --confidence high \
  --notes "官方发布页面确认"

# 3. 将日志中的 🟡 记录升级为 🟢
python ~/.openclaw/workspace/skills/anti-hallucination/scripts/hallucination_logger.py verify \
  --id 5

# 4. 查看认知沙盒统计
python ~/.openclaw/workspace/skills/anti-hallucination/scripts/verify_fact.py stats

# 5. 列出所有已验证事实
python ~/.openclaw/workspace/skills/anti-hallucination/scripts/verify_fact.py list --verified-only

认知沙盒结构

存储位置：~/.openclaw/workspace/hallucination_logs/verified_knowledge.json
自动分类：code / temporal / person / organization / numerical / general
相似度检测：添加时自动检测重复（阈值 85%）

置信度标注格式（快速参考）

| 标记 | 含义 | 使用场景 |

|------|------|----------|

| 🟢 [已验证] | 来自用户材料或认知沙盒，可核实 | 直接引用文档内容，或认知沙盒命中 |

| 🟡 [待验证] | 来自训练数据，建议确认 | 常见知识但无法即时核实，未在认知沙盒中 |

| 🔴 [存疑] | 不确定，可能错误 | 应避免输出，若输出必须标注 |

认知沙盒查询优先级：

输出前查询认知沙盒 verify_fact.py query
若命中且 verified=true，直接标注 🟢
若命中但 verified=false（待验证），标注 🟡并引用来源
若未命中，按原流程判断置信度

用户请求统计时的输出格式

当用户请求查看幻觉记录时，运行 stats 命令并以如下格式汇报：

📊 AI 幻觉风险事件累计记录
━━━━━━━━━━━━━━━━━━━━━━━━
总计事件数：X 次
首次记录：YYYY-MM-DD
最近记录：YYYY-MM-DD

按类型分布：
  invented_api          X 次  ████
  false_fact            X 次  ██
  ...

[详细列表见日志文件]

版本历史

共 2 个版本

v1.0.1 修改显示名称当前

2026-04-20 22:22 安全安全
v1.0.0 Initial release

2026-04-19 21:47 安全安全

安全检测

腾讯云安全 (Keen)

安全，无风险

查看报告

腾讯云安全 (Sanbu)

安全，无风险

查看报告

Anti-Hallucination v2（认知沙盒版）是一套通过AI幻觉风险实施“全流程风险控制 + 自我进化机制+数据沉淀”的防御体系。

概述

Anti-Hallucination Skill v2 (认知沙盒版)

更新说明

目的

核心机制

认知沙盒（Verified Knowledge Base）

触发场景

核心工作流

所有场景：开始前必做

研究写作场景工作流

代码生成场景工作流

幻觉事件日志记录

何时记录

记录方式

查看统计

🟡 转 🟢 验证流程

何时使用

验证步骤

命令参考

认知沙盒结构

置信度标注格式（快速参考）

用户请求统计时的输出格式

版本历史

安全检测

腾讯云安全 (Keen)

腾讯云安全 (Sanbu)

🔗 相关推荐

Github

Skill Vetter

Self-Improving + Proactive Agent

Anti-Hallucination v2（认知沙盒版） 是一套通过AI幻觉风险实施“全流程风险控制 + 自我进化机制+数据沉淀”的防御体系。

概述

Anti-Hallucination Skill v2 (认知沙盒版)

更新说明

目的

核心机制

认知沙盒（Verified Knowledge Base）

触发场景

核心工作流

所有场景：开始前必做

研究写作场景工作流

代码生成场景工作流

幻觉事件日志记录

何时记录

记录方式

查看统计

🟡 转 🟢 验证流程

何时使用

验证步骤

命令参考

认知沙盒结构

置信度标注格式（快速参考）

用户请求统计时的输出格式

版本历史

安全检测

腾讯云安全 (Keen)

腾讯云安全 (Sanbu)

🔗 相关推荐

Github

Skill Vetter

Self-Improving + Proactive Agent

Anti-Hallucination v2（认知沙盒版）是一套通过AI幻觉风险实施“全流程风险控制 + 自我进化机制+数据沉淀”的防御体系。