金大哥 - MCP Browser Use Server MCP 详情

article

README

🚀 MCP 服务器实现——基于浏览器使用

本项目实现了 MCP 协议的具体服务，可借助自然语言指令控制浏览器开展各类操作，为用户提供便捷、高效的浏览器自动化解决方案。

🚀 快速开始

通过 Claude CLI 能够轻松启动服务：

# 安装并运行服务
npx @modelcontextprotocol/cli run mcp-server-browser-use

# 查看日志
npx @modelcontextprotocol/cli logs mcp-server-browser-use

# 在 Inspector 中打开控制台
npx @modelcontextprotocol/inspector run mcp-server-browser-use

✨ 主要特性

浏览器控制：支持导航、点击、输入、滚动等常规操作。
表单处理：可完成填写表单、提交请求等任务。
状态查询：能够获取页面内容、进行截图等操作。
多标签管理：实现创建、切换和关闭标签页功能。
视觉识别：利用图像识别技术定位元素。
模型调用：支持多种 AI 模型，提供智能决策能力。

📦 安装指南

依赖项

项目基于以下技术构建： | 属性 | 详情 | |------|------| | 协议标准 | MCP 协议，定义了 AI 与服务交互的标准接口 | | 运行环境 | Claude CLI，提供 MCP 服务器运行环境 | | 开发语言 | Python，用于实现服务逻辑 | | 开发工具链 | Uv |

环境搭建

# 克隆仓库
git clone https://github.com/JovaniPink/mcp-browser-use.git
cd mcp-browser-use

# 创建虚拟环境并安装依赖
python -m venv env
source env/bin/activate  # 在 Windows 中使用 env\Scripts\activate
pip install -r requirements.txt

运行服务

uvx run mcp-server-browser-use

调试模式

uvx logs --follow mcp-server-browser-use

💻 使用示例

基础用法

通过 MCP 协议可实现以下浏览器功能：

# 以下为示例代码，展示如何通过 MCP 协议实现浏览器操作
# 导航至指定 URL
# 模拟用户点击和输入
# 提交表单数据
# 截取页面快照
# 多标签页管理
# 视觉元素识别

📚 详细文档

配置选项

可通过配置文件或环境变量设置服务行为，以下是关键配置：

{
  "command": "uvx",
  "args": ["mcp-server-browser-use"],
  "env": {
    // 浏览器调试端口，默认 9222
    "CHROME_DEBUGGING_PORT": "9222",
    // 浏览器用户数据目录，默认空字符串使用默认配置
    "CHROME_USER_DATA": "",
    // 是否保持会话，默认 false
    "CHROME_PERSISTENT_SESSION": false,
    // 模型提供者，支持 anthropic、openai 等
    "MCP_MODEL_PROVIDER": "anthropic",
    // 其他模型参数...
  }
}

🔧 技术细节

由于服务需要控制浏览器行为，存在一定的安全风险。建议：

⚠️ 重要提示

在受信任的网络环境下使用。

避免在生产环境中部署。

严格管理 API 密钥和访问权限。

定期更新依赖库以防范漏洞。

💡 使用建议

保持服务与 MCP 协议的兼容性。

定期更新依赖库以防范安全漏洞。

在生产环境前进行充分测试。

遵守相关法律法规和用户隐私政策。

更多详细信息请参考 MCP 协议文档和 Claude CLI 文档。

MCP Browser Use Server