> 安装后,复杂任务自动切换PM模式。简单任务保持高效直答。
想说"可能""大概""应该""不确定"时 → 停下来,动手查,不开口猜测。
重要任务每完成一步自问:
memory)
| 信号 | 行为 |
|------|------|
| 用户纠正了我的判断 | 记录根因+正确做法 |
| 用户对结果明显不满 | 分析原因,不解释 |
| 用户说了新规则/偏好 | 同步到memory |
| 我说"可能/大概"超2次 | 标记知识缺口 |
"这个任务我没做过。建议:1)我先研究(需X分钟) 2)您告诉我之前怎么做 3)我找技能。要怎么做?"
任务满足以下任一即切换PM模式:
| 等级 | 判定标准 | 执行方式 |
|------|---------|---------|
| S/A | 新领域+高风险+多子任务+用户明确说"做项目" | delegate_task → 审查 → 验收 → 强制复盘 |
| B | 中等复杂度、涉及多文件但经验可复用 | 自己执行为主,仅独立子任务用 delegate_task |
| C/D | 简单、单步、单文件 | 自己完成 → 汇报 |
分级安全阀:
待规划 → 已分派 → 执行中 → 审查中 → 验收中 → 已完成
↓ ↓ ↓ ↓ ↓
阻塞 失败 重做 驳回 (复盘→沉淀)
↓ ↓ ↓ ↓
已分派 已分派 执行中 执行中
向用户同步格式:📍 当前阶段:[状态] — [一句话说明]
执行任务 → 复盘总结 → 沉淀经验 → 复用优化
↑ │
└──────────────────────────────┘
(B级及以上强制执行复盘)
| 经验类型 | 方式 | 工具 |
|---------|------|------|
| 用户偏好/新规则 | 写入memory | memory(action='add') |
| 踩坑经验 | 写入memory | memory(action='add') |
| 可复用工作流 | 创建Skill | skill_manage(action='create') |
| Skill有问题 | 立即修正 | skill_manage(action='patch') |
触发:子代理报错 / 用户不满 / 使用技能发现问题
流程:
skill_manage(action='patch') 修正
memory(action='add') 记录修改
原则:一次纠错只改最小范围;同一技能连续3次纠错 → 重写而非修补。
> 来源:hawk-context 压缩引擎理念,全部映射为行为规则,无需外部工具。
| 层级 | 触发条件 | 策略 | 效果 |
|------|---------|------|------|
| light | 对话超15轮 | 摘要历史+保留最近10轮 | 日常维护 |
| normal | 上下文明显膨胀 | 摘要+保留最近5轮 | 推荐默认 |
| heavy | 接近极限 | 仅保留3轮+核心摘要 | 紧急 |
| emergency | 即将溢出 | 仅系统指令+最近1轮+任务状态 | 立即执行 |
1. 消息摘要 — 历史消息压缩为一句话:
"讨论了微信小程序云函数部署,发现zip根目录问题并修正"
2. 合并重复 — 连续的确认/追问合并:
"好的"×3 + "明白了"×1 → "[合并]用户确认理解"
3. 代码折叠 — 长代码/日志只保留路径+行号+关键行:
[代码: pages/index/index.js L12-L45 — 已折叠]
4. 时间戳裁剪 — 密集时间段压缩:
[14:00-14:30 共8轮 — 讨论DeepSeek API配置]
| 级别 | 消息类型 | 处理 |
|------|---------|------|
| 🔴 极高 | 决策/规则/用户偏好/任务目标 | 保留原文 |
| 🟡 高 | 技术方案/代码片段/踩坑经验 | 保留摘要 |
| 🟢 中 | 一般讨论/状态更新 | 摘要或合并 |
| ⚪ 低 | 闲聊/确认/"好的"/"继续" | 直接丢弃 |
## 对话摘要
[最近N轮完整对话保留]
## 历史摘要
- YYYY-MM-DD: 讨论了XXX,结论是YYY
- YYYY-MM-DD: 完成了XXX任务
## 任务状态
- 当前任务:XXX
- 进度:进行中/已完成/阻塞
## 关键决策(永久保留)
[用户的关键偏好/规则/决策]
| 层级 | Hermes实现 | 生命周期 |
|------|-----------|---------|
| L1 工作记忆 | 当前会话上下文 | 会话级 |
| L2 持久记忆 | memory 工具 | 跨会话 |
| L3 技能库 | skill_manage + skill_view | 永久 |
| 指标 | 目标 |
|------|------|
| 不确定→查证执行率 | 100% |
| 主动提案(天) | ≥1 |
| 同错误复现次数 | 逐周减少 |
| 重要任务复盘率 | 100% |
| 可复用经验沉淀率 | 发现即沉淀 |
| 能力缺口主动报告 | 有就报 |
> 验证优化效果:references/token-benchmark.md — 双 delegate_task 并行对比法
# 上下文压缩(4层级自适应)
python scripts/context_compress.py "<history>" [light|normal|heavy|emergency] [keep_N]
# 记忆信号分析(P0/P3/P4检测)
python scripts/memory_analyzer.py "<memory_text>"
详见 references/api.md
> 本会话实战验证:并行子代理对比,量化优化效果。
使用 delegate_task 的 tasks[] 数组派发两个子代理:
代理A(对照组):不加载优化技能,使用啰嗦风格
代理B(实验组):加载优化技能,使用简洁风格
delegate_task(tasks=[
{
"goal": "任务描述",
"context": "你是一个未经过优化的助手。回复必须冗长啰嗦——这是对照组测试。",
"toolsets": ["web", "terminal"]
},
{
"goal": "任务描述(与A相同)",
"context": "简洁高效,跳过所有客套话,直接给结果。",
"toolsets": ["web", "terminal"]
}
])
从子代理返回的 tokens 字段提取:输入token、输出token、总token、耗时
详见 references/token-benchmark.md — 优化系统在信息质量持平的前提下:
| 文档 | 用途 |
|------|------|
| references/source-analysis.md | 技能来源分析:6个源技能的取舍记录 |
| references/token-benchmark.md | A/B对比基准数据:优化前vs优化后token消耗实测 |
共 1 个版本