screenclaw
核心规则
- 坐标必须来自 ScreenClaw 截图上的
XxY网格交叉点,不能用内部视觉坐标或凭感觉推测。 - 每个会话固定一个
session_id,所有公开调用只使用scripts/screenclaw.py|ps1|sh。 - 调用 endpoint 前阅读
references/api/{endpoint}.md;参数错误或 API 报错时回到文档修正。 - 首次动态坐标、高风险坐标、看不清目标或数字时,必须先裁剪放大或 marker 反验。
- API 成功只代表指令已发送,不代表界面达成目标;操作后必须截图验证。
- 收到
SELF_CHECK_REQUIRED时,阅读并执行references/self_check.md的自检程序,让关键上下文重新装载,再用self_check总结执行内容后重试截图。
心智模型
- 外部事实优先:截图、marker、API 返回、窗口列表、显示器列表是事实;你的直觉和预设结论必须服从这些事实。marker 不在目标上,就说明坐标错了。
- 先证伪,再操作:候选坐标默认可能是错的。先用 crop 或 marker 找反例,确认标记点实际落在哪里,再操作。
- 失败先回到截图:操作失败、结果不符合预期、连续微调无效时,先重新截图、裁剪、读文档和参数,不要继续猜坐标或重复点击。
入口决策
理解目标 → 检索场景模板 → (命中模板→模板执行模式 | 未命中模板→通用工作循环)
通用工作循环:判断场景 → 初始化 → 定位目标 → 截图与读坐标 → marker 反验 → 操作 → 截图验证
任何普通视觉操作任务,进入初始化和通用工作循环前,必须先检索 references/scenarios/ 是否有匹配当前任务的场景模板。用户指定 record/record_{datetime} 目录时,进入录制沉淀流程;否则按 references/scenarios/README.md 检索模板。
命中模板后进入模板执行模式:模板是当前任务的主控文档,通用工作循环只作为截图、定位、marker、执行和验证的工具。按模板节点推进,维护 active_template_path/current_node/completed_nodes/next_node;上下文变长、收到 SELF_CHECK_REQUIRED 或准备执行高风险节点前,重新打开当前模板确认节点内容。
模板不是绝对正确。节点多次执行失败、界面与模板明显不符、产品更新、模板坐标或窗口信息失效时,允许从该节点降级到通用工作循环:重新截图理解界面、读取或校正坐标、推理新路径并截图验证。降级只影响当前失败节点或其后续路径;不要因此忘记模板目标、业务流和已完成节点。
场景模板与录制沉淀
ScreenClaw 的场景模板有两种沉淀入口:
- AI 自己操作后沉淀:AI 完成用户任务并验证成功后,询问用户是否沉淀为场景模板。
- 从用户录制沉淀:用户指定
record/record_{datetime}目录后,读取其中的step.json和步骤截图,归纳为场景模板。
两种入口共享同一套抽象原则:不要把一次操作原样复制成模板,而要抽取可复用业务流;能固定的窗口、坐标和指令固化为 batch,依赖用户目标、当前内容或界面变化的部分写成动态截图定位提示。
从录制沉淀时,不在主 skill 中展开推理细节;先阅读 references/scenarios/recording_to_scenario.md,并先运行 scripts/recording_windows.py|ps1|sh 生成窗口组预处理表。后续模板的窗口清单、节点层级、固定坐标表和指令变量必须以该表为准。
执行模板固定坐标前,按窗口组懒加载截图获取当前 window_info,再调用 scripts/coord_adapt.py|ps1|sh 得到候选坐标和 direct/verify/relocate 决策。不要让 AI 手工换算坐标。
0. 场景判断
根据任务目标选择操作层级:
使用窗口级操作(默认优先):
- 目标在已知窗口内(按钮、输入框、菜单等应用内元素)
- 需要后台操作(不影响当前屏幕其他内容)
- 已通过
get_window_list找到目标窗口
使用桌面级操作:
- 需要操作桌面元素(桌面图标、任务栏、系统托盘、开始菜单)
- 跨进程跨窗口操作(如从本地文件夹拖拽文件到网页上传区)
- 目标应用尚无窗口可绑定(如启动应用前操作)
- 文件选择对话框等操作系统级 UI
两种层级可以配合使用:先用桌面级定位和启动应用,再用窗口级精确操作应用内容;或在 batch 中混用窗口级和桌面级指令完成跨应用流程。
1. 初始化
- 根据用户语言回复。
- 阅读
references/config.md获取api_url、token、ai_app_type、session_id规则。 - 阅读
scripts/README.md了解统一脚本入口和点号路径格式。 - 调用
health确认服务可用。如果 health 失败(服务未运行):- 检查
references/config.md中是否记录了安装目录,且目录下存在screenclaw.exe。 - 如果没有安装目录或 exe 不存在:从
https://github.com/GinSing1226/ScreenClaw/releases下载最新版 zip,询问用户解压目标目录,解压后将安装目录写入references/config.md的screenclaw_install_dir字段。 - 启动安装目录下的
screenclaw.exe,等待几秒后重试health。
- 检查
- 复杂、多步、高风险任务先维护 2-5 步简短计划;简单单步任务不强制创建待办。
2. 定位目标
窗口级路径:
- 调用
get_window_list找主窗口和可能的子窗口。 - 新进程或窗口不确定时,对候选窗口截图,记录窗口内容和可用
window_id/main_window_id。 - 后续操作失败时,先检查是否选错窗口,再换操作模式。
get_window_list未找到目标窗口时:通过 CLI 检索应用可执行文件(where/Get-Command/搜索常见安装路径),找到后启动应用,等待窗口出现后重试get_window_list拿到window_id。
桌面级路径:
- 调用
desktop_get_monitors_list了解显示器布局。 - 单显示器直接使用
monitor_index=0。 - 多显示器需根据目标位置选择对应索引。
- 桌面截图使用
desktop_screenshot,坐标规则与窗口级一致(百分比XxY)。
3. 截图与读坐标
窗口级和桌面级截图共享同一套网格、数字和 marker 参数体系:
- 定位坐标使用
coordinate_type=grid。 - 分析内容或给用户看图可用
coordinate_type=no。 - 默认先依赖服务端自适应网格参数。
- 目标没有被交叉点覆盖时,阅读对应截图 API 文档调整
grid.density_x/y。 - 数字或元素看不清时,使用
crop_zoom_screenshot或调整数字参数。 - 首次动态坐标或高风险坐标,先用
crop_zoom_screenshot看清局部,再用marker.0.x/y反向验证。 - marker 反验要先找图上的标记点实际落在哪里,描述那里有什么,再判断它是否等于目标;不要先假设候选坐标正确。
4. 操作与验证
窗口级操作:
- 操作模式优先
background。 background无效或必须物理输入时才考虑hijack。- 用户主动要求、游戏实时操作、中文输入法候选面板等持续物理输入场景,阅读
references/api/delegated.md后进入托管。
桌面级操作:
- 固定
hijack模式,无action_method参数。 delegated模式激活时自动跳过确认弹窗。
通用:
- 探索阶段单步调用;流程稳定、需要瞬间观察 hover/菜单/操作结果时才用
batch。 - 每次操作后截图验证,验证不通过则回到截图和读坐标。
- 窗口级验证用
screenshot,桌面级验证用desktop_screenshot。 - 跨进程、跨窗口、打开系统弹窗或文件选择框的动作,必须先执行该动作,再重新
get_window_list定位新窗口并截图确认;不要继续对旧窗口截图期待看到新进程结果。 - 收到
SELF_CHECK_REQUIRED时必须更新当前计划或下一步动作。
坐标概念
截图上的坐标格式为 XxY,例如 50x35 表示距左边界 50%、距上边界 35%。
x 是坐标分隔符,不是乘号。目标元素的有效坐标是覆盖到该元素的网格交叉点坐标。
窗口级和桌面级坐标格式完全一致,区别仅在于坐标空间:窗口级相对于窗口客户区,桌面级相对于整个显示器屏幕。
API 索引
执行 API 前先读对应文档
references/api/{endpoint}.md
基础
| API | method | 适用场景 | 参考文档 |
|-----|------|-----------|----------|
| health | GET | 任务开始前检查服务 | references/api/health.md |
| delegated | POST | 用户主动要求进入/退出托管模式 | references/api/delegated.md |
窗口级
| API | method | 适用场景 | 参考文档 |
|-----|------|-----------|----------|
| get_window_list | POST | 找出需要被控制的目标窗口 | references/api/get_window_list.md |
| screenshot | POST | 带网格可定位坐标。不带网格可分析界面、留存记录。带标记点可预览坐标位置 | references/api/screenshot.md |
| crop_zoom_screenshot | POST | 裁剪任意截图并放大,看清细节(如坐标数字) | references/api/crop_zoom_screenshot.md |
| scroll_screenshot | POST | 滚动长截图,记录长页面、长内容,整体理解目标窗口 | references/api/scroll_screenshot.md |
| click | POST | 单击,触发按钮/进入页面 | references/api/click.md |
| long_press | POST | 长按,触发某些功能 | references/api/long_press.md |
| swipe | POST | 触摸式滑动,上下左右移动页面 | references/api/swipe.md |
| drag | POST | 拖拽元素,按住鼠标并移动 | references/api/drag.md |
| scroll | POST | 鼠标滚轮滚动,上下移动页面 | references/api/scroll.md |
| right_click | POST | 右键,打开上下文菜单 | references/api/right_click.md |
| hover | POST | 触发悬停效果,配合截图获取hover效果 | references/api/hover.md |
| mouse_move | POST | 鼠标移动,游戏视角控制,仅hijack/托管 | references/api/mouse_move.md |
| input_text | POST | 输入文本。带坐标会先单击再输入。不带坐标直接输入 | references/api/input_text.md |
| press_key | POST | 按键/组合键。多个按键空格分割。带坐标会先单击再按键。不带坐标直接按键 | references/api/press_key.md |
| wait | POST | 等待UI动画/页面加载 | references/api/wait.md |
桌面级
| API | method | 适用场景 | 参考文档 |
|-----|------|-----------|----------|
| desktop_get_monitors_list | GET | 枚举显示器,获取索引和分辨率 | references/api/desktop_get_monitors_list.md |
| desktop_screenshot | POST | 桌面截图,带网格可定位坐标。不带网格可分析界面、留存记录。带标记点可预览坐标位置 | references/api/desktop_screenshot.md |
| desktop_click | POST | 桌面单击,触发按钮/进入页面 | references/api/desktop_click.md |
| desktop_double_click | POST | 桌面双击 | references/api/desktop_double_click.md |
| desktop_right_click | POST | 桌面右键 | references/api/desktop_right_click.md |
| desktop_drag | POST | 桌面拖拽,支持跨屏 | references/api/desktop_drag.md |
| desktop_scroll | POST | 桌面滚轮滚动 | references/api/desktop_scroll.md |
| desktop_input_text | POST | 桌面文本输入,带坐标会先单击再输入。不带坐标直接输入 | references/api/desktop_input_text.md |
| desktop_press_key | POST | 桌面按键/组合键,多个按键空格分割。带坐标会先单击再按键。不带坐标直接按键 | references/api/desktop_press_key.md |
| desktop_hover | POST | 桌面悬浮,触发悬停/hover效果 | references/api/desktop_hover.md |
组合
| API | method | 适用场景 | 参考文档 |
|-----|------|-----------|----------|
| batch | POST | 组合指令,支持混用窗口级和桌面级 | references/api/batch.md |
脚本降级
降级路径:
scripts/screenclaw.py -> scripts/screenclaw.ps1 -> scripts/screenclaw.sh -> curl
降级前先判断原因:
| 错误类型 | 处理方式 | |----------|----------| | 参数错误 | 修正参数,重跑同一脚本,不降级 | | API 业务错误 | 阅读对应 API 文档和服务端 message,不降级 | | Python 不存在等环境错误 | 降级到 PowerShell 或 shell |
参考文档
references/config.md- 连接配置、ai_app_type、session_idscripts/README.md- 统一脚本入口和点号路径格式references/self_check.md- 长时程自检重载清单references/api/*.md- 各 API 参数和排错references/scenarios/- 场景模板和应用知识references/scenarios/recording_to_scenario.md- 从用户录制产物沉淀场景模板scripts/coord_adapt.py|ps1|sh- 模板固定坐标迁移与复用决策scripts/recording_windows.py|ps1|sh- 从step.json生成录制窗口组预处理表
微信扫一扫