返回 MCP 目录
public公开dns本地运行

OmniParser AutoGUI

这是一个基于OmniParser的MCP服务器,能够分析屏幕内容并自动操作GUI界面,主要在Windows系统上运行。

article

README

🚀 omniparser-autogui-mcp

这是一个借助 OmniParser 对屏幕进行分析,并自动操作 GUI 的 MCP 服务器。经确认,该项目在 Windows 系统上可正常使用。(点击查看日文版

🚀 快速开始

本项目是使用 OmniParser 分析屏幕并自动操作 GUI 的 MCP 服务器,在 Windows 系统上可用。

📦 安装指南

步骤一:克隆仓库并下载模型

请按照以下步骤进行操作:

git clone --recursive https://github.com/NON906/omniparser-autogui-mcp.git
cd omniparser-autogui-mcp
uv sync
set OCR_LANG=en
uv run download_models.py

📌 注意

  • 非 Windows 系统,请使用 export 替代 set
  • 如果希望 langchain_example.py 正常运行,请使用 uv sync --extra langchain

步骤二:配置 claude_desktop_config.json 文件

将以下内容添加到您的 claude_desktop_config.json 文件中:

{
  "mcpServers": {
    "omniparser_autogui_mcp": {
      "command": "uv",
      "args": [
        "--directory",
        "D:\\CLONED_PATH\\omniparser-autogui-mcp",
        "run",
        "omniparser-autogui-mcp"
      ],
      "env": {
        "PYTHONIOENCODING": "utf-8",
        "OCR_LANG": "en"
      }
    }
  }
}

📌 注意:请将 D:\\CLONED_PATH\\omniparser-autogui-mcp 替换为您实际克隆的路径。

额外配置说明

env 允许以下额外配置:

  • OMNI_PARSER_BACKEND_LOAD:如果与其他客户端(如 LibreChat)冲突,请指定 1
  • TARGET_WINDOW_NAME:如果您想指定要操作的窗口,请指定窗口名称。未指定时,默认对整个屏幕进行操作。
  • OMNI_PARSER_SERVER:如果希望 OmniParser 的处理在另一台设备上执行,请指定服务器地址和端口,例如 127.0.0.1:8000。服务器可以通过 uv run omniparserserver 启动。
  • SSE_HOST, SSE_PORT:如果指定,则通信将通过 SSE 而非标准输入输出进行。
  • SOM_MODEL_PATH, CAPTION_MODEL_NAME, CAPTION_MODEL_PATH, OMNI_PARSER_DEVICE, BOX_TRESHOLD:这些用于 OmniParser 的配置。通常情况下,不需要手动设置。

💻 使用示例

基础用法

在屏幕上的浏览器中搜索“MCP 服务器”。

📄 许可证

本项目采用 MIT 许可证,但不包括子模块和子包。
OmniParser 仓库使用 CC-BY-4.0 许可证。
每个 OmniParser 模型具有不同的许可(参考)。

help

运行方式说明

cloud

托管运行

托管运行通常表示这个 MCP Server 由服务方环境承载,用户一般按页面提供的连接方式或授权流程接入,不需要在本地长期启动一个 MCP 进程

  1. 打开服务方连接页
  2. 完成授权或复制端点
  3. 在 MCP 客户端中连接
terminal

本地运行 / 其它方式

本地运行通常需要用户在自己的电脑或服务器上安装依赖,把 server_config 复制到 MCP 客户端,并按 env_schema 补齐环境变量、密钥或其它配置

  1. 复制 server_config
  2. 安装所需依赖
  3. 补齐环境变量后重启客户端