← 返回
未分类

Task Watchdog

任务锁与超时监控系统。外部文件承载任务状态,不污染 agent 上下文,纯靠 heartbeat + GRACE 判断,不发即时告警。
任务锁与超时监控系统。使用外部文件保存任务状态,避免污染 agent 上下文,仅靠 heartbeat + GRACE 判断,不发送即时告警。
axelhu axelhu 来源
未分类 clawhub v1.0.0 1 版本 100000 Key: 无需
★ 0
Stars
📥 313
下载
💾 0
安装
1
版本
#latest

概述

Task Watchdog

核心概念

Lock 文件是任务的外部状态载体,放于 ~/.openclaw/agents/{agent_id}/locks/

  • active/ — 正在执行的任务
  • archive/YYYY-MM-DD/ — 归档(done / abandoned / timeout)

两个时间字段,职责不同:

last_heartbeat  — lock-self-check 更新(纯心跳维持,不说明任务有进展)
last_progress   — lock-update --progress 时更新(标记真实进展)

状态判断(用 last_progress,不看 last_heartbeat):

✅ 正常      session 存在,last_progress 正常
⚠️ SESSION_DEAD  session 已消失
⚠️ STALLED      session 存在,但 last_progress 超 GRACE×3
⚠️ HEARTBEAT_DELAY  心跳延迟
🚫 abandoned  session 消失 + last_progress 超 GRACE×3
📦 done       任务完成,立即归档

脚本

脚本用途
------------
lock-create.sh创建 lock → active/
lock-update.sh更新 heartbeat;--progress 时同时更新 last_progress
lock-done.sh标记完成 → 归档
lock-status.sh查询状态
scan-locks.sh扫描 active/,异常归档
lock-archive.sh归档N天前 / 清理N天前 / 统计
lock-report.sh查看所有活跃任务状态
lock-self-check.shAgent 自检:更新心跳 + 处理 abandoned

推荐用法

关键节点调用:

任务开始 → lock-create
每个关键步骤完成 → lock-update --progress "X完成,开始Y"
任务全部完成 → lock-done

HEARTBEAT 触发时调用自检:

收到心跳轮询时
  → 调用 lock-self-check.sh
  → 自动完成:
      无活跃任务 → 无输出,agent 回复 HEARTBEAT_OK
      owner session 存活 → 只更新 last_heartbeat
      owner session 已死 → 接管任务(更新 session_id + last_heartbeat)
  → 无需判断逻辑,脚本自动处理

设计目标

任务续做保障系统,不是即时告警系统:

  • 中断后 lock 留在 active/,Supervisor 扫描归档
  • 自检机制让 agent 自动继续被中断的任务
  • 定期报告让负责人知道哪些任务需要接管或放弃

常用命令

./lock-self-check.sh --agent-id xxx --session-id xxx   # HEARTBEAT 触发时调用
./lock-report.sh                                        # 查看所有活跃任务状态
./lock-archive.sh --list                              # 同上
./lock-archive.sh --archive-days 7                   # 归档7天前完成的任务
./lock-archive.sh --cleanup-days 30                   # 清理30天前的归档

版本历史

共 1 个版本

  • v1.0.0 当前
    2026-05-07 09:10 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

ai-agent

self-improving agent

pskoett
捕获经验教训、错误及修正内容,以实现持续改进。适用于以下场景:(1)命令或操作意外失败;(2)用户纠正Claude(如“不,那不对……”“实际上……”);(3)用户请求的功能不存在;(4)外部API或工具出现故障;(5)Claude发现自身
★ 4,095 📥 821,831
ai-agent

Self-Improving + Proactive Agent

ivangdavila
自我反思+自我批评+自我学习+自组织记忆。智能体评估自身工作、发现错误并持续改进。
★ 1,390 📥 321,902
office-efficiency

Office Toolkit

axelhu
处理 Office 文档的技能,用于读取、创建、编辑 Word 文档(.docx)、Excel 表格(.xlsx/.csv)、PPT(.pptx)和 PDF 文件。基于 python-docx、openpyxl、python-pptx、py
★ 0 📥 4,622