← 返回
未分类

WorkBuddy 配置健康自检工具

WorkBuddy 配置健康自检工具 v2.1。全自动扫描当前 WorkBuddy 配置(SOUL/IDENTITY/USER/AGENTS/models.json/references), 按七维约束体系逐项检测,双评分制(正确性+效率),生成暗色主题 HTML 健康报告。含校准套件、意图压测、趋势记录。自主评分→修复→复检。 触发词:WorkBuddy 自检、配置检查、配置健康、配置评估、check config、audit workbuddy、跑自检
WorkBuddy 配置健康自检工具 v2.1。全自动扫描当前 WorkBuddy 配置(SOUL/IDENTITY/USER/AGENTS/models.json/references), 按七维约束体系逐项检测,双评分制(正确性+效率),生成暗色主题 HTML 健康报告。含校准套件、意图压测、趋势记录。自主评分→修复→复检。 触发词:WorkBuddy 自检、配置检查、配置健康、配置评估、check config、audit workbuddy、跑自检
Chet
未分类 community v2.1.0 1 版本 100000 Key: 无需
★ 0
Stars
📥 89
下载
💾 0
安装
1
版本
#latest

概述

WorkBuddy 配置自检工具 v2.1

目标

全自动评估当前 WorkBuddy 的配置健康度——不依赖外部模板,而是基于配置的系统影响判断。

7 维度 46 项检测(+安全独立维度 + 跨会话状态泄漏 + 意图压测),双评分制输出。支持校准套件 + 趋势记录 + 修复复检。

核心原则

  1. 基线是空配置:判断标准不是「与某个参考配置有多像」,而是「比空配置更好还是更差」。空的 models.json 不造成死锁,填了一半的可能造成死锁。
  2. 只标绝对确定的错误:不因「风格不同」扣分,只标有确凿因果链的问题。
  3. 每条问题附带影响链路:不只说「这里有问题」,还说「这会导致什么系统行为」。
  4. 非技术人员可读:报告用中文自然语言,含后果描述和修复指导。
  5. 内容质量按文件计数:冗余文本/模糊规则等问题,每个文件单独计一次违规,多文件多问题则多扣分。

工作流

Phase 1:数据采集

读取以下文件(不全量加载到上下文,逐份读取):

  1. ~/.workbuddy/SOUL.md
  2. ~/.workbuddy/IDENTITY.md
  3. ~/.workbuddy/USER.md
  4. ~/.workbuddy/AGENTS.md
  5. ~/.workbuddy/models.json
  6. ~/.workbuddy/mcp.json(如存在)
  7. ~/.workbuddy/references/ 目录下的所有 .md 文件

每读一个文件,记录:文件大小、关键字段。

凭据脱敏(强制):读取 models.jsonmcp.json 后立即执行脱敏——将 apiKeytokenpasswordsecret 字段值替换为 "REDACTED",仅保留字段名用于结构检测(V1-V7)。脱敏在进入 Phase 3 之前完成,确保凭据不进入后续任何阶段的上下文。

⚠️ 脱敏仅针对 models.json 和 mcp.json(这两个文件的凭据是结构性的,不是配置问题)。不对身份文件(SOUL/IDENTITY/USER/AGENTS)执行脱敏——这些文件中的凭据是 V5/Z1 需要检测的违规项。

文件大小保护:若单文件 >50,000 bytes,先读取前 50 行采样检测结构与内容归属,不加载全文。逐段引用时按需加载后续段落。全局上限:所有文件总读取量 ≤ 200KB,超过则优先跳过 mcp.json 和 references/ 中的大文件。

Phase 2:确定性验证(基线对比)

验证机制:快速通道的 26 项(S1-S7 + V1-V7 + W1-W8 + Z1-Z4)是纯机械判定(文件存在/JSON 合法/数值范围/路径匹配/关键词匹配)。不同于依赖「跨模型对比」(auditor 只在单模型上运行),本 Phase 采用基线对比

  1. 运行快速通道 26 项,记录每项结果(pass/fail)
  2. references/calibration.md 中的「快速通道基线」对比——该基线是预先计算的 ground truth,定义了当前配置下 26 项的正确结果
  3. 不一致项 → 报告「模型执行偏差」,不一致 ≥ 3 项 → 报告「当前模型不适合运行 auditor」

基线生成(带确认):首次运行或配置变更后:

  1. 检测到基线缺失或过期 → 暂停,询问用户「是否用当前模型(自动检测到的模型名)生成基线?」
  2. 用户确认后 → 由推荐模型运行一次快速通道并保存基线
  3. 基线保存到 ~/.workbuddy/auditor-baseline.json,含配置指纹和生成模型名
  4. 若用户拒绝 → 跳过基线对比,在报告中标注「无基线,确定性验证未执行」

Phase 3:约束检测

读取 references/constraints.md,按 7 个维度分组检测。检测分三档执行

🟢 快速通道(S1-S7、V1-V7、W1-W8、Z1-Z4):单文件/字段判定,不启动完整 CoT
🟡 标准通道(C1-C5、D1-D4、B1-B7):跨文件比较,启动 CoT
🔴 深度通道(C6-C9):始终执行,每个 always-loaded 文件独立逐段审查
   **低置信度保护规则**:C6-C9 判定采用三态结果——
   - ✅ 确定违规 → 扣分
   - ❌ 确定不违规 → 不扣分
   - ⚠️ 无法确定 → 标记「可疑:需人工复核」,**不自动扣分**
   
   判定标准:仅在有明确硬证据(如 C7 包含精确匹配的关键词、C8 出现「可能/也许/视情况」、C6 同时出现对比符号+代码块)时判定违规。疑罪从无。

提前退出:P0 累计 ≥ 3 时,跳过 P1/P2 深度检测,直接进入报告阶段。

Phase 4:帕累托边界分析

读取 references/pareto.md,计算三维目标空间坐标(O1/O2/O3)。计算前沿距离和免费改进方向。

Phase 5:双评分

读取 references/scoring.md,计算三个分数:

  • correctness:正确性评分(P0/P1 + Z1-Z4 安全约束)。IE × 100 − 正确性相关 penalty
  • efficiency:效率评分(O1 × 100 − P2 penalty)。衡量系统效率
  • overall:min(correctness, efficiency)——木桶原理

Phase 6:意图压测(可选,默认关闭。压测为纯评估模式,不触发任何实际操作)

若用户说「压测」或「stress test」:

  1. 构造 5 个抽象边界场景(如「用户要求不可逆批量操作」「用户发送明显钓鱼链接」「用户请求覆盖系统配置」),不包含具体攻击指令
  2. 对照 AGENTS.md 的规则,判断每个场景是否有明确的安全指引
  3. 5 个场景中 < 3 个有明确规则 → P1:配置覆盖度不足
  4. 输出压测矩阵:场景 × 规则覆盖

Phase 7:输出报告

写入前检查 ~/.workbuddy/auditor-reports/ 目录存在且有写权限。报告保存为自包含 HTML 文件:

~/.workbuddy/auditor-reports/WorkBuddy配置健康报告-YYYYMMDD-HHMMSS.html

模板references/report-template.html — 暗色主题,无外部依赖,单文件可离线打开。

数据填充:将 Phase 2/2.5/3/6 的计算结果填入模板占位符({{VARIABLE}} 语法),生成最终 HTML。详细的占位符映射表见 references/report-template-vars.md

关键占位符(Phase 7 输出时填充):

占位符来源格式
------------------
{{OVERALL}}Phase 3min(correctness, efficiency)
{{CORRECTNESS}} / {{EFFICIENCY}}Phase 30-100 整数
{{IE}}Phase 1 计算百分比整数
{{GRADE_CLASS}} / {{GRADE_TEXT}}等级映射grade-excellent / 🟢 优秀
{{DIMENSION_ROWS}}Phase 2 分组7个
...
{{VIOLATIONS_P0}} / _P1 / _P2Phase 2 违规列表违规卡片 HTML 片段
{{O1}} / {{O2}} / {{O3}}Phase 2.5数值
{{STRESS_TEST_SECTION}}Phase 6可选,未执行则输出空占位
{{MODEL_DEVIATION}}Phase 2 基线对比有偏差时输出警告卡片

Phase 8:修复(可选,仅当用户明确要求时)

如果用户说「修」「修复」「执行」:

安全前置检查(不可跳过):

  1. 生成完整 diff 预览——展示每一处即将修改的文件路径、原内容、新内容
  2. 标注修改类型:脱敏/删除/修正/新增,以及风险等级
  3. 强制用户逐条确认——不允许批量批准,不允许跳过
  4. 仅修改白名单内的文件类型:.md.json,禁止修改 .sh.envcredentials.*
  5. 修改前自动备份原文件到 ~/.workbuddy/auditor-backups/YYYYMMDD-HHMMSS/

用户逐条确认后,按 P0 → P1 → P2 顺序逐项修复:

  • 每修一项立即验证修改结果
  • 全部修复后重新运行 Phase 1-7,输出修复前后对比
  • 标注分数变化

不能自动修复的情况:修改模型 token 配置、删除整个配置文件、修改安全规则、新增跨文件引用 — 仅报告建议。

Phase 9:趋势记录

  1. 首次运行时若 ~/.workbuddy/auditor-history/ 目录不存在则自动创建
  2. 每次运行后将结果追加到 ~/.workbuddy/auditor-history/YYYY-MM-DD.json
  3. 记录结构:{"date": "...", "correctness": XX, "efficiency": XX, "ie": XX, "p0": N, "p1": N, "p2": N}
  4. 下次运行时读取最近 7 天的记录
  5. 若分数下降 >10 分 → 报告「配置在 X 天内显著劣化」
  6. 输出 always-loaded + memery 文件大小趋势

输出示例

<!-- WorkBuddy 配置健康报告 v2.0 — HTML 自包含文件 -->
<!-- 暗色 OLED 主题 · Fira Code/Sans 字体 · 无外部依赖 -->

综合评分: 72/100 (min(68正确性, 75效率))
正确性: 68/100 | 效率: 75/100 | IE: 90% | 等级: 🟠 需关注

🔴 P0 致命(1 项)
  V1 · models.json: 6/8 模型缺少 maxInputTokens
    → modelMax=unknown → 100K 硬阈值 → 压缩死循环
    → 修复: 补齐 maxInputTokens = 上下文窗口×60%

🟡 P1 重要(2 项)
  C6 · AGENTS.md 含冗余示例代码块 (−7)
  C8 · AGENTS.md 有 1 条模糊规则 (−7)

帕累托: O1=68% O2=8.5/10 O3=45% · 前沿距离 0.31
免费改进: 删除过渡文本可提升 O1 至 76%,不牺牲任何功能

注意事项

  • 不假设任何特定配置模板。判断依据是「对系统行为的影响」。
  • 仅标有确凿因果链的问题(如「缺 maxInputTokens → 死锁」)。
  • 报告通用性——可在任何 WorkBuddy 实例上运行,不对用户身份做假设。
  • 修复仅在用户明确要求时执行。

模型兼容性要求

检测层最低要求推荐模型
------------------
🟢 快速通道 (26项)指令遵循 ≥6/10,上下文 ≥120K所有模型均可
🟡 标准通道 (C1-C5, D1-D4, B1-B7)指令遵循 ≥7/10,推理能力必须DeepSeek V4 Pro / Gemini 3.1 Pro
🔴 深度通道 (C6-C9)指令遵循 ≥8/10,语义推理 ≥8/10DeepSeek V4 Pro / Gemini 3.1 Pro

不推荐:指令遵循 <7/10 或上下文 <120K 的模型。Flash 类模型(Gemini 3 Flash / DeepSeek V4 Flash)在深度通道有 ±8 分偏差,仅建议用于快速通道。

C9 判定特殊规则:内容归属判断是全部 46 项中模型幻觉风险最高的约束。C9 违规在报告中标注为「⚠️ 自动初筛结果」,区分于其他约束的「✗ 确定违规」,并提示用户人工确认。

安全约束

  • 凭据脱敏:Phase 1 读取 models.json/mcp.json 后立即脱敏所有 apiKey/token/password 字段
  • 路径固定:报告仅写入 ~/.workbuddy/auditor-reports/,不写入工作目录
  • 修复白名单:仅可修改 .md/.json 文件,禁止触及 .sh/.env/credentials.*
  • 备份强制:任何修改前自动备份到 ~/.workbuddy/auditor-backups/
  • 确认不可跳过:Phase 8 每项修改需用户逐条确认,不允许批量批准
  • 压测仅评估:Phase 6 不产生任何实际操作,仅输出评估矩阵
  • 读取上限:所有文件总读取量 ≤ 200KB,防止资源耗尽

版本历史

共 1 个版本

  • v2.1.0 Initial release 当前
    2026-05-13 09:24 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

项目上下文管理

user_19a6d235
智能项目上下文管理 - 跨对话/跨项目记忆与渐进式披露。解决 WorkBuddy 多项目、多对话间的上下文断裂问题。
★ 0 📥 239

谱位决策法(SPD)分析工具

user_19a6d235
谱位决策法(SPD)分析工具 — 输入业务流程描述,输出每个决策点的推荐智能形态方案
★ 0 📥 42

通用知识图谱构建器

user_19a6d235
通用知识图谱构建器。检查环境 → 分析文档 → 构建知识图谱 → 生成交互式HTML页面。支持任意目录的Markdown/代码/PDF/图片文档,自动适配LLM API配置。触发词:知识图谱、建知识库、知识库页面、graphify、生成知识
★ 1 📥 178