article
README
🚀 MCP 服务器实现——基于浏览器使用
本项目实现了 MCP 协议 的具体服务,可借助自然语言指令控制浏览器开展各类操作,为用户提供便捷、高效的浏览器自动化解决方案。
🚀 快速开始
通过 Claude CLI 能够轻松启动服务:
# 安装并运行服务
npx @modelcontextprotocol/cli run mcp-server-browser-use
# 查看日志
npx @modelcontextprotocol/cli logs mcp-server-browser-use
# 在 Inspector 中打开控制台
npx @modelcontextprotocol/inspector run mcp-server-browser-use
✨ 主要特性
- 浏览器控制:支持导航、点击、输入、滚动等常规操作。
- 表单处理:可完成填写表单、提交请求等任务。
- 状态查询:能够获取页面内容、进行截图等操作。
- 多标签管理:实现创建、切换和关闭标签页功能。
- 视觉识别:利用图像识别技术定位元素。
- 模型调用:支持多种 AI 模型,提供智能决策能力。
📦 安装指南
依赖项
项目基于以下技术构建: | 属性 | 详情 | |------|------| | 协议标准 | MCP 协议,定义了 AI 与服务交互的标准接口 | | 运行环境 | Claude CLI,提供 MCP 服务器运行环境 | | 开发语言 | Python,用于实现服务逻辑 | | 开发工具链 | Uv |
环境搭建
# 克隆仓库
git clone https://github.com/JovaniPink/mcp-browser-use.git
cd mcp-browser-use
# 创建虚拟环境并安装依赖
python -m venv env
source env/bin/activate # 在 Windows 中使用 env\Scripts\activate
pip install -r requirements.txt
运行服务
uvx run mcp-server-browser-use
调试模式
uvx logs --follow mcp-server-browser-use
💻 使用示例
基础用法
通过 MCP 协议可实现以下浏览器功能:
# 以下为示例代码,展示如何通过 MCP 协议实现浏览器操作
# 导航至指定 URL
# 模拟用户点击和输入
# 提交表单数据
# 截取页面快照
# 多标签页管理
# 视觉元素识别
📚 详细文档
配置选项
可通过配置文件或环境变量设置服务行为,以下是关键配置:
{
"command": "uvx",
"args": ["mcp-server-browser-use"],
"env": {
// 浏览器调试端口,默认 9222
"CHROME_DEBUGGING_PORT": "9222",
// 浏览器用户数据目录,默认空字符串使用默认配置
"CHROME_USER_DATA": "",
// 是否保持会话,默认 false
"CHROME_PERSISTENT_SESSION": false,
// 模型提供者,支持 anthropic、openai 等
"MCP_MODEL_PROVIDER": "anthropic",
// 其他模型参数...
}
}
🔧 技术细节
由于服务需要控制浏览器行为,存在一定的安全风险。建议:
⚠️ 重要提示
- 在受信任的网络环境下使用。
- 避免在生产环境中部署。
- 严格管理 API 密钥和访问权限。
- 定期更新依赖库以防范漏洞。
💡 使用建议
- 保持服务与 MCP 协议的兼容性。
- 定期更新依赖库以防范安全漏洞。
- 在生产环境前进行充分测试。
- 遵守相关法律法规和用户隐私政策。
更多详细信息请参考 MCP 协议文档 和 Claude CLI 文档。
微信扫一扫