group-health-monitor
群健康监控Skill:监控全员在线率、任务完成率、响应延迟,三级告警机制。
触发条件
- cron定时触发(推荐每15分钟)
- 需要查看团队健康状态时
- 关键词:群健康、团队状态、工人监控
监控指标
1. 在线率
- 基于工人lastActive时间判断
- 超过30分钟未活跃标记为idle
- 超过2小时未活跃标记为offline
2. 任务完成率
- todayDone / (todayDone + pending) 为当日完成率
- 完成率 < 30% 且 pending > 3 标记为低效
- todayDone = 0 且 pending > 0 标记为零产出
3. 响应延迟
- inbox任务从创建到状态变为inProgress/done的时间差
- 超过1小时未处理标记为延迟
- 超过4小时未处理标记为严重延迟
告警级别
| 级别 | 条件 | 示例 | |------|------|------| | CRITICAL | 多人同时offline / 零产出人数>半数 | 3人同时掉线 | | WARN | 单人零产出 / 任务延迟>1h / 完成率<30% | D连续4小时无产出 | | INFO | 单人idle / 完成率偏低 / 周期趋势变化 | 完成率从80%降到50% |
API依赖
- Dashboard API: GET workers数据
- Dashboard API: POST 群聊告警
- 认证: Authorization: Bearer {TOKEN}
使用方法
# 生成健康报告
python3 scripts/health_monitor.py
# 检测并发告警
python3 scripts/health_monitor.py --alert
# JSON输出
python3 scripts/health_monitor.py --json
# 仅显示异常工人
python3 scripts/health_monitor.py --anomaly-only
报告格式
团队健康报告 | 2026-06-13 09:30
在线: 5/7 | 当日产出: 12 | 完成率: 71%
[WARN] openclaw-d | 零产出 | pending=1 | idle 45min
[INFO] urfq | offline 3.2h | pending=1
配置
- DASHBOARD_TOKEN: API认证token
- ALERT_SENDER: 告警发送者ID(默认openclaw-c)
- IDLE_THRESHOLD: idle阈值(秒,默认1800)
- OFFLINE_THRESHOLD: offline阈值(秒,默认7200)
- DELAY_WARN: 延迟告警阈值(秒,默认3600)
- DELAY_CRIT: 延迟严重阈值(秒,默认14400)
微信扫一扫