README
🚀 AI-Cursor-Scraping-Assistant
AI-Cursor-Scraping-Assistant是一款强大的工具,它借助Cursor AI和MCP(模型上下文协议),能轻松生成适用于各种类型网站的网络爬虫。该工具可帮助您快速分析网站,以最小的工作量生成合适的Scrapy框架或Camoufox模板,极大提升网络数据采集的效率。
🚀 快速开始
AI-Cursor-Scraping-Assistant结合了人工智能与网络爬虫技术,致力于提高网络数据采集的效率和智能化水平。该工具主要由两部分构成:Cursor AI负责分析和处理网页内容,MCP协议则用于生成高效的爬虫策略。
✨ 主要特性
- 智能网页分析:利用Cursor AI精准分析和处理网页内容。
- 高效策略生成:借助MCP协议生成高效的爬虫策略。
- 多模板支持:支持Scrapy框架和Camoufox模板,满足不同需求。
📦 安装指南
在使用AI-Cursor-Scraping-Assistant之前,请确保您的环境满足以下要求:
- 安装Python 3.8或更高版本。
- 确保安装了必要的依赖项,包括:
- Scrapy框架:用于网络爬虫开发。
- Camoufox模板:用于生成高效的爬虫策略。
请按照以下步骤进行项目安装:
# 克隆仓库
git clone https://github.com/your-username/AI-Cursor-Scraping-Assistant.git
# 进入项目目录
cd AI-Cursor-Scraping-Assistant
# 安装依赖项
pip install scrapy camoufox
💻 使用示例
基本的设置步骤
MCP服务器配置
- 打开
MCPfiles/xpath_server.py文件。 - 根据注释更新环境变量:
import os
os.environ['CAMOUFOX_FILE_PATH'] = '路径/到/Camoufox_template.py'
网络爬虫模板
- Scrapy框架:用于基本的网络爬虫开发。
- Camoufox模板:用于生成高效的爬虫策略。
📚 详细文档
网站分析规则
website-analysis.mdc文件包含如何分析和处理网站内容的规则,包括以下步骤:
- 分析网页结构。
- 提取所需数据。
- 处理提取的数据。
Scrapy框架最佳实践
scrapy.mdc文件提供了使用Scrapy框架时的最佳实践,包括:
- 确保爬虫代码简洁易懂。
- 使用中间件和扩展来增强功能。
- 定期更新爬虫策略以适应网站变化。
创建网络爬虫的分步指南
scepy-step-by-step-process.mdc文件提供了创建网络爬虫的详细步骤,包括:
- 确定爬取目标。
- 设计爬虫逻辑。
- 实现和测试爬虫。
网络爬虫模板
scraper-models.mdc文件提供了不同类型的网络爬虫模板,包括:
- 电子商务网站:用于抓取产品信息。
- 新闻网站:用于抓取新闻数据。
先决条件
prerequisites.mdc文件列出了在使用工具之前需要完成的设置,包括:
- 安装必要的依赖项。
- 配置环境变量。
🔧 技术细节
项目结构
AI-Cursor-Scraping-Assistant/
├── MCPfiles/
│ ├── xpath_server.py # MCP服务器文件,用于生成XPath选择器
│ └── Camoufox_template.py # Camoufox模板文件,用于创建高效的爬虫策略
├── cursor-rules/
│ ├── website-analysis.mdc # 网站分析规则
│ ├── scrapy.mdc # Scrapy框架最佳实践
│ ├── scrapy-step-by-step-process.mdc # 创建网络爬虫的分步指南
│ ├── scraper-models.mdc # 不同类型的网络爬虫模板
│ └── prerequisites.mdc # 使用工具前需要完成的设置
└── README.md # 项目说明文件
未来改进计划
代理集成
- 添加按需代理支持。
- 实现代理轮换策略。
- 支持更多代理提供商。
- 处理代理身份验证。
- 集成流行代理服务。
改进的XPath生成和验证
- 添加 XPath 选择器的验证机制。
- 实现反馈循环以优化选择器。
- 控制流管理以重写选择器。
- 自动修复有问题的选择器。
- 处理动态内容和AJAX加载等边缘情况。
其他计划功能
- 支持更多类型的网络爬虫(如新闻网站、社交媒体等)。
- 集成更多反机器人绕过技术。
- 提升JSON数据提取能力。
- 支持更复杂的导航模式。
- 优化多页面抓取性能。
参考资料
该项目基于The Web Scraping Club的文章:
📄 许可证
请查看项目的LICENSE文件以获取详细信息。
扫码联系在线客服