article
README
🚀 计算机控制 MCP 服务器
本项目是一个提供计算机控制功能的 MCP 服务器,可实现鼠标、键盘控制以及 OCR 等功能。它借助 PyAutoGUI、RapidOCR、ONNXRuntime 等工具,类似于 Anthropic 的 'computer-use',且无外部依赖。
- 仅在 Windows 上测试过,其他平台可能也适用。

🚀 快速开始
通过uvx安装 MCP
{
"mcpServers": {
"computer-control-mcp": {
"command": "uvx",
"args": ["computer-control-mcp@latest"]
}
}
}
使用 pip 全局安装
pip install computer-control-mcp
运行服务器
computer-control-mcp # 而不是使用uvx computer-control-mcp,这样可以使用最新版本。也可以使用`uv cache clean`清除缓存后再次使用`uvx`以获取最新版本。
✨ 主要特性
- 控制鼠标移动和点击
- 在当前光标位置输入文本
- 截取整个屏幕或特定窗口的截图,可选保存到下载目录
- 使用 OCR(光学字符识别)从截图中提取文本
- 列出并激活窗口
- 按下键盘键
- 拖放操作
💻 使用示例
基础用法
# 以下是使用鼠标控制的基础示例
from computer_control_mcp import click_screen
# 在屏幕坐标 (100, 100) 处点击
click_screen(100, 100)
高级用法
# 以下是一个结合鼠标和键盘控制的高级示例
from computer_control_mcp import click_screen, type_text
# 在屏幕坐标 (200, 200) 处点击
click_screen(200, 200)
# 在当前光标位置输入文本
type_text("Hello, World!")
📦 安装指南
开发环境设置
- 克隆仓库:
git clone https://github.com/AB498/computer-control-mcp.git
cd computer-control-mcp
- 安装依赖项:
pip install -r requirements.txt
- 启动服务器:
python server.py
运行测试
运行以下命令以执行测试:
pytest tests/
📚 详细文档
可用工具
鼠标控制
click_screen(x: int, y: int):在指定屏幕坐标点击move_mouse(x: int, y: int):将鼠标移动到指定坐标drag_mouse(from_x: int, from_y: int, to_x: int, to_y: int, duration: float = 0.5):从一个位置拖动鼠标到另一个位置
键盘控制
type_text(text: str):在当前光标位置输入指定文本press_key(key: str):按下指定的键盘键
屏幕和窗口管理
take_screenshot(title_pattern: str = None, use_regex: bool = False, threshold: int = 60, with_ocr_text_and_coords: bool = False, scale_percent_for_ocr: int = 100, save_to_downloads: bool = False):截取屏幕或窗口,可选 OCRget_screen_size():获取当前屏幕分辨率list_windows():列出所有打开的窗口activate_window(title_pattern: str, use_regex: bool = False, threshold: int = 60):激活指定窗口
📄 API 参考
查看完整的 API 文档,请访问:https://github.com/AB498/computer-control-mcp/blob/main/docs/api.md
📄 许可证
MIT License
📞 联系方式
如需帮助或反馈,请联系:
- 邮箱:[此处插入邮箱地址]
- Discord:[此处插入Discord邀请链接]
扫码加入微信群