README
🚀 浏览器自动化代理
浏览器自动化代理是一款功能强大的工具,它借助MCP(模型控制程序)搭建而成,集成了网络抓取和LLM智能功能。该代理能够在Google上进行搜索、访问网页,还能从GitHub、Stack Overflow和各类文档网站中智能抓取所需内容。
🚀 快速开始
浏览器自动化代理可帮助你高效地进行网络搜索和内容抓取。以下是使用该工具的基本步骤:
- 完成安装(具体安装步骤见“📦 安装指南”)。
- 分别运行服务端和客户端(具体操作见“📋 使用方法”)。
- 在客户端提示时输入查询内容,代理将自动完成搜索、抓取和内容保存等操作。
✨ 主要特性
- 🔍 Google搜索集成:可查找并检索任意查询的顶部搜索结果。
- 🕸️ 智能网络抓取:依据不同网站类型定制抓取策略,涵盖GitHub仓库、Stack Overflow问答、文档页面以及通用网站。
- 🧠 AI驱动处理:运用Mistral AI理解并处理抓取到的内容。
- 🥷 简单模式:实施浏览器指纹保护,避免被检测。
- 💾 内容保存:自动保存抓取页面的屏幕截图和文本内容。
📦 安装指南
克隆仓库
git clone https://github.com/yourusername/browser-automation-agent.git
cd browser-automation-agent
安装依赖项
pip install -r requirements.txt
安装Playwright浏览器
playwright install
配置API密钥
在项目根目录中创建.env文件,并添加你的Mistral AI API密钥:
MISTRAL_API_KEY=your_api_key_here
💻 使用示例
基础用法
运行服务端
python main.py
运行客户端
python client.py
示例交互
当服务端和客户端都在运行时:
- 在提示时输入您的查询。
- 代理将执行以下操作:
- 🔍 在Google中搜索相关信息。
- 🧭 导航到顶部结果。
- 📊 根据网站类型抓取内容。
- 📸 保存页面截图和文本内容到文件。
- 📤 返回处理后信息。
高级用法
该工具提供了多个实用的工具功能,可根据具体需求调用不同的函数:
get_top_google_url
🔍 搜索Google并返回给定查询的顶部结果URL。
browse_and_scrape
🌐 访问一个URL并根据网站类型抓取内容。
scrape_github
📂 专门从GitHub仓库提取README内容和代码块。
scrape_stackoverflow
💬 提取Stack Overflow页面中的问题、答案、评论和代码块。
scrape_documentation
📚 优化以提取文档内容和代码示例。
scrape_generic
🌐 提取通用网站的段落文本和代码块。
📚 详细文档
🏗️ 架构
该项目采用基于MCP的客户端 - 服务器架构:
- 🖥️ 服务端:负责处理浏览器自动化和网络抓取任务。
- 👤 客户端:提供AI接口,使用Mistral AI和LangGraph。
- 📡 通信:通过标准I/O实现客户端与服务端的交互。
⚙️ 需求
- 🐍 Python 3.8+
- 🎭 Playwright
- 🧩 MCP(模型控制程序)
- 🔑 Mistral AI API密钥
📁 文件结构
browser-automation-agent/
├── main.py # MCP服务端实现
├── client.py # Mistral AI客户端实现
├── requirements.txt # 项目依赖项
├── .env # 环境变量(API密钥)
└── README.md # 项目文档
📥 内容保存
- browser automation:通过PhantomBuster批量处理LinkedIn请求,发送连接邀请。
- network research:从Indeed、Glassdoor和LinkedIn获取公司信息和薪资数据。
- data analysis:分析CSV文件中的联系人列表,识别潜在客户并分类。
- crm integration:将抓取的数据直接导入Salesforce或其他CRM系统。
⚠️ 注意事项
⚠️ 重要提示
- 确保所有操作遵守目标网站的
robots.txt规则和相关法律法规。- 保持API密钥安全,避免泄露。
- 定期更新工具以确保与最新网站结构兼容。
如果有任何问题或反馈,请随时联系支持团队。
Scan to join WeChat group