返回 MCP 目录
public公开dns本地运行

browser-use-server

一个基于Python脚本的浏览器自动化MCP服务器,支持网页截图、HTML获取、JavaScript执行和控制台日志收集等功能,可与Cline工具集成使用。

article

README

🚀 浏览器使用服务器

这是一个用于网页浏览器自动化操作的MCP(Middleware Communication Protocol)服务器。它支持网页截图、HTML获取、JavaScript执行以及控制台日志获取等多种功能,还能通过命令进行多步骤操作,极大提升了网页自动化操作的效率和灵活性。

🚀 快速开始

本服务器可用于网页浏览器自动化操作,支持多种强大功能。你可以按照以下步骤进行安装和使用。

✨ 主要特性

1. 截图

  • 参数
    • url:必填项,目标网页的URL。
    • full:可选项,默认为false,若设置为true则捕获完整页面截图。
    • steps:可选项,以逗号分隔的操作步骤或指令。

2. 获取HTML

  • 参数
    • url:必填项,目标网页的URL。
    • steps:可选项,以逗号分隔的操作步骤或指令。

3. 执行JavaScript

  • 参数
    • url:必填项,目标网页的URL。
    • script:必填项,需要执行的JavaScript代码。
    • steps:可选项,以逗号分隔的操作步骤或指令。

4. 获取控制台日志

  • 参数
    • url:必填项,目标网页的URL。
    • steps:可选项,以逗号分隔的操作步骤或指令。

📦 安装指南

前置条件

  1. 安装Xvfb(用于无头浏览器环境):
    sudo apt-get install xvfb
    
  2. 安装Miniconda 或 Anaconda,并创建Conda环境:
    conda create -n browser-use python=3.8
    conda activate browser-use
    

通过Smithy安装

  1. 克隆仓库:
    git clone https://github.com/browser-use/server.git
    cd server
    
  2. 安装依赖项并构建服务器:
    npm install
    npm run build
    

📚 详细文档

MCP配置

{
  "browser-use": {
    "llm-providers": [
      "glhf", // 使用 deepseek-ai/DeepSeek-V3 模型
      "ollama", // 使用 qwen2.5:32b-instruct-q4_K_M 模型,上下文长度为32k
      "groq", // 使用 deepseek-r1-distill-llama-70b 模型
      "openai", // 使用 gpt-4o-mini 模型
      "openrouter", // 使用 deepseek/deepseek-chat 模型
      "github", // 使用 gpt-4o-mini 模型
      "deepseek", // 使用 deepseek-chat 模型
      "gemini" // 使用 gemini-2.0-flash-exp 模型
    ],
    "vision-support": false, // 默认禁用视觉功能,启用可提升性能;设置为 true 开启视觉支持
    "use-xvfb": true // 自动检测并使用 Xvfb 运行环境变量 RUNNING_UNDER_XVFB
  }
}

配置选项

  • LLM 提供商:支持多种大型语言模型,具体包括:
    • glhf:使用 deepseek-ai/DeepSeek-V3 模型
    • ollama:使用 qwen2.5:32b-instruct-q4_K_M 模型,上下文长度为32k
    • groq:使用 deepseek-r1-distill-llama-70b 模型
    • openai:使用 gpt-4o-mini 模型
    • openrouter:使用 deepseek/deepseek-chat 模型
    • github:使用 gpt-4o-mini 模型
    • deepseek:使用 deepseek-chat 模型
    • gemini:使用 gemini-2.0-flash-exp 模型

💻 使用示例

服务器运行

npm start

示例用法

示例1:网页元素修改

将页面上的文字颜色改为红色:
browser.use.steps(
  "打开浏览器",
  "访问网址 http://example.com",
  "找到所有段落元素并设置颜色为红色"
)

调试工具

npm run debug

🔧 技术细节

服务器会在控制台输出详细的错误信息,便于排查问题。

📄 许可证

MIT License

使用场景

  • 网页自动化测试
  • 数据抓取与分析
  • 动态网页交互操作
  • 多步骤任务执行
help

运行方式说明

cloud

托管运行

托管运行通常表示这个 MCP Server 由服务方环境承载,用户一般按页面提供的连接方式或授权流程接入,不需要在本地长期启动一个 MCP 进程

  1. 打开服务方连接页
  2. 完成授权或复制端点
  3. 在 MCP 客户端中连接
terminal

本地运行 / 其它方式

本地运行通常需要用户在自己的电脑或服务器上安装依赖,把 server_config 复制到 MCP 客户端,并按 env_schema 补齐环境变量、密钥或其它配置

  1. 复制 server_config
  2. 安装所需依赖
  3. 补齐环境变量后重启客户端