article
README
🚀 omniparser-autogui-mcp
这是一个借助 OmniParser 对屏幕进行分析,并自动操作 GUI 的 MCP 服务器。经确认,该项目在 Windows 系统上可正常使用。(点击查看日文版)
🚀 快速开始
本项目是使用 OmniParser 分析屏幕并自动操作 GUI 的 MCP 服务器,在 Windows 系统上可用。
📦 安装指南
步骤一:克隆仓库并下载模型
请按照以下步骤进行操作:
git clone --recursive https://github.com/NON906/omniparser-autogui-mcp.git
cd omniparser-autogui-mcp
uv sync
set OCR_LANG=en
uv run download_models.py
📌 注意:
- 非 Windows 系统,请使用
export替代set。 - 如果希望
langchain_example.py正常运行,请使用uv sync --extra langchain。
步骤二:配置 claude_desktop_config.json 文件
将以下内容添加到您的 claude_desktop_config.json 文件中:
{
"mcpServers": {
"omniparser_autogui_mcp": {
"command": "uv",
"args": [
"--directory",
"D:\\CLONED_PATH\\omniparser-autogui-mcp",
"run",
"omniparser-autogui-mcp"
],
"env": {
"PYTHONIOENCODING": "utf-8",
"OCR_LANG": "en"
}
}
}
}
📌 注意:请将 D:\\CLONED_PATH\\omniparser-autogui-mcp 替换为您实际克隆的路径。
额外配置说明
env 允许以下额外配置:
OMNI_PARSER_BACKEND_LOAD:如果与其他客户端(如 LibreChat)冲突,请指定1。TARGET_WINDOW_NAME:如果您想指定要操作的窗口,请指定窗口名称。未指定时,默认对整个屏幕进行操作。OMNI_PARSER_SERVER:如果希望 OmniParser 的处理在另一台设备上执行,请指定服务器地址和端口,例如127.0.0.1:8000。服务器可以通过uv run omniparserserver启动。SSE_HOST,SSE_PORT:如果指定,则通信将通过 SSE 而非标准输入输出进行。SOM_MODEL_PATH,CAPTION_MODEL_NAME,CAPTION_MODEL_PATH,OMNI_PARSER_DEVICE,BOX_TRESHOLD:这些用于 OmniParser 的配置。通常情况下,不需要手动设置。
💻 使用示例
基础用法
在屏幕上的浏览器中搜索“MCP 服务器”。
📄 许可证
本项目采用 MIT 许可证,但不包括子模块和子包。
OmniParser 仓库使用 CC-BY-4.0 许可证。
每个 OmniParser 模型具有不同的许可(参考)。
扫码联系在线客服