← 返回
未分类

3Q-quality-system

提供基于13问三层结构与自动触发的元认知质量保障,支持文档、代码、决策等多场景质量检查与管控。
基于13问三层结构的自动触发元认知质量保障,支持文档、代码、决策等多场景质量检查与管控。
qh582 qh582 来源
未分类 clawhub v7.11.0 2 版本 100000 Key: 无需
★ 0
Stars
📥 592
下载
💾 1
安装
2
版本
#latest

概述

3Q 质量系统 — 突破 AI 的自我视角局限

> 做什么:让你的 AI(Claude、GPT、Codex、Cursor)在输出前停下来想一想。六个认知透镜 + 三维空间意识 + 独立盲审。

> 快速上手

> - 执行前:三问预检——什么可能出错?影响谁?怎么发现?

> - 子任务后(10 秒):三步快速检查——做全了吗?做对了吗?有反常吗?

> - 深度检查:7 个维度 1-10 分打分,不通过重做。

> - 自修正:同类失败 ≥ 3 次 → 系统自动添加防犯规则。


Layer 0:预审 + 实时护栏

执行前三问

#问题目的
---------------
Q1这次执行最可能出什么错?预判风险
Q2如果出错,影响什么/谁?范围评估
Q3怎么在执行中发现它出错?检测手段

规则:答不出 → 先补信息再执行。禁止跳过。

事中修正三信号

信号触发条件修正方式
------------------------
S1 产出偏离产出与预期差距 > 30%暂停 → 回溯目标 → 重写
S2 遗漏上下文关键信息未读暂停 → 补充 → 继续
S3 前后矛盾前后声明不一致暂停 → 统一 → 继续

自动触发(直接升级到深度 3Q)

条件动作
------------
同类问题出现 ≥ 3 次自动触发深度 3Q
输出中出现自相矛盾强制深度 3Q
复杂多步骤任务完成自动深度 3Q 后交付

Layer 0.5:快速 3Q(10 秒)

每次子任务返回后执行:

#问题通过标准
------------------
① 做全了吗?步骤完整,无缺失全部完成
② 做对了吗?数据准确偏差 ≤ 2%
③ 有反常的吗?反向证据已检查无未确认的异常

流程:全部通过 → ✅ 交付。任一不通过 → ⚠️ 升级到深度 3Q。

输出格式

📋 快速3Q:步骤 X/Y ✅ | 数据 ✅/⚠️{偏差}% | 逻辑 ✅/❌矛盾

Grill 模式(挑战 Q 不走过场)

> 从"列出质疑→全部通过"改为逐条拷问+强制反面证据。至少 1 条 🔴,全绿 = 没认真审。

纪律

  • 每个"通"必须配一个"不通会怎样"
  • 🔴 标红的维度必须先处理再继续

Layer 1:六个认知透镜

透镜问题突破什么局限
-------------------------
元认知 Q我的任务理解对吗?"我以为他要什么"的陷阱
标杆 Q领域顶尖 1% 怎么做?自我满足的低标准
挑战 Q如果我的假设全错了?默认正确的偏见
逻辑 Q论证自洽吗?跳跃式结论
用户 Q用户价值清晰吗?自我中心的思维
竞争 Q差异化在哪?盲目跟风

六个问题不是"质量检查清单"——它们是六个不同的认知透镜,每次执行强制切换一次视角。

标杆 Q 前置步骤:分群

> 不分群就谈标杆,是在用不知道哪个流派的标尺量东西。

步骤做什么为什么
----------------------
分群识别核心打法/风格/流派不知道有哪些流派,就没法对标
标杆每个流派下顶尖 1% 怎么看分群后标杆才有意义
冲突流派之间的分歧点在哪?分歧才是超额收益/突破口的来源

跨领域示例

领域分群示例冲突即信号
--------------------------
投资价值/动量/事件驱动/宏观对冲不同流派看同一事件方向相反→大机会
写作爽文/严肃文学/非虚构评价标准完全不同
产品增长驱动/体验驱动/生态驱动top 1% 做的事不一样
科研实验派/理论派/计算派好研究的定义不同

三追问(深度检查)

追问问题目的
------------------
副作用检查这个修复会不会带来新问题?防止矫枉过正
重启条件什么时候该承认判断失效?防止错误持续生效
地基递归支撑当前逻辑的最深层假设是什么?防止地基歪了

三维扩展

六问检查的是质量,三维检查的是范围——你在正确层级、正确时间跨度、正确竞争位上思考问题吗?

维度检查点典型问题
-----------------------
逻辑 + 阶维 🏛️层级匹配执行层问题→执行层方案,不跳跃到战略层
用户 + 纵维时间演变需求从哪来?现在怎样?未来趋势?
竞争 + 横维 🌐生态位直接/间接/替代竞品在哪?差异化支点在哪?

使用建议

  • 日常检查:六问
  • 深度分析:六问 + 三追问
  • 重大决策:六问 + 三维 + 三追问 + 盲审

量化评分体系

7 个维度,每个 1-10 分。满分 70,≥ 70 通过。

维度1-3 分4-6 分7-9 分10 分
-------------------------------------
元认知 Q方向偏了方向对但浅理解准确发现隐性需求
标杆 Q没搜搜了没分群分群+对标分群+对标+冲突
挑战 Q没质疑质疑了没推翻找到盲点推翻重建更好
逻辑 Q有矛盾自洽但粗糙严谨有反证
用户 Q价值不清有价值但不聚焦聚焦可衡量用户直接感知提升
竞争 Q没差异有差异但脆弱可持续差异化是壁垒
效果验证没测测了没基线基线确认提升量化+置信

必填规则

  • 每次深度 3Q 必须打分,无分数 = 无效审查
  • 效果验证必须跑 A/B 测试(有 skill vs 无 skill)
  • 总分 ≤ 60 → 驳回;61-69 → 盲审验证后决定

独立盲审

为什么需要:SkillLens 论文实证,AI 自审准确率仅 46.4%——因为"我知道为什么这么写"的解释器偏差。

3Q 的解决方案:

交付文件 → 启动盲审 agent(裸读,无上下文)
         → 独立 7 维度打分
         → 主 agent 对比自有评分 + 盲审评分
         → 偏差 > 2 分 → 按低分处理

评分收敛规则

  • 盲审分 ≈ 主 agent 分(偏差 ≤ 1)→ ✅ 已收敛
  • 盲审分明显更低(偏差 > 2)→ ⚠️ 强制审查该维度,按低分处理
  • 盲审分明显更高 → 🟡 检查盲审是否遗漏问题

自修正(从错误中学习)

> 3Q 不是静态的——它从自己的检查结果中学习,自动更新规则。

触发条件发生什么输出
------------------------
同类失败 ≥ 3 次被 3Q 捕获系统添加一条新规则来防范更新后的内部规则
用户反复纠正同一类问题系统添加一个禁用模式更新后的禁用清单
外部新范式出现系统触发全框架审查更新后的方法论

用得越多,越能精准抓住你特有的失败模式。


Meta-3Q:质疑框架本身

3Q 捕获后还是出同样的问题?外部出现了更好的质量范式?

操作:扫描行业最新的质量实践。差距足够大 → 触发框架重构。


首次使用:装好后做什么

  1. "用 3Q 检查一下你上次生成的内容" — 看它实际怎么工作
  2. "开始下一个任务之前,先做一个预检" — 养成习惯
  3. 用 3-5 次后回顾:"3Q 捕获了哪些失败?它漏掉了什么?"
  4. 每日练习用 日检模板
  5. 重大决策用 决策检查清单

延伸阅读

3Q 系统附带了配套参考文件:

文件内容什么场景用
-----------------------
references/three-dimensions.md三维扩展深度详解(阶纵/纵横/横维)复杂问题需要空间意识时
references/daily-check-template.md每日 5 分钟 3Q 自查模板每天开始或结束时
references/decision-checklist.md12 个决策检查点 + 三阶段 3Q重大决策前

技能淘汰

公式retirement_score = utility × log(use_count)

分数判定
------------
> 0.5保留
≤ 0.5审查是否退役
长期未用直接退役

版本历史

共 2 个版本

  • v7.11.0 当前
    2026-05-31 13:24
  • v4.0.1
    2026-05-03 07:17 安全 安全

安全检测

腾讯云安全 (Keen)

队列中

腾讯云安全 (Sanbu)

队列中

🔗 相关推荐

ai-agent

Agent Browser

rez0
用于 AI 代理的浏览器自动化 CLI。当用户需要与网站交互(包括浏览页面、填写表单、点击按钮、截图等)时使用。
★ 865 📥 342,444
ai-agent

self-improving agent

pskoett
记录自身发现以实现自我改进的技能
★ 4,161 📥 931,129
ai-agent

Self-Improving + Proactive Agent

ivangdavila
自我反思+自我批评+自我学习+自组织记忆。智能体评估自身工作、发现错误并持续改进。
★ 1,441 📥 327,993