Smart Crawler - 智能爬虫工具

企业级数据采集解决方案，支持智能反爬虫处理、分布式爬取和数据清洗。

核心功能

| 功能模块 | 说明 | |---------|------| | 智能爬虫引擎 | 基于 Playwright/Selenium 的动态渲染爬取 | | 反爬虫处理 | 自动切换 User-Agent、代理池、请求频率控制 | | 数据提取 | XPath/CSS Selector/Regex 多模式数据提取 | | 分布式支持 | Redis 队列支持的分布式爬取 | | 数据清洗 | 自动去重、格式标准化、敏感信息过滤 |

快速开始

from scripts.crawler_engine import CrawlerEngine

# 创建爬虫引擎
crawler = CrawlerEngine(use_proxy=True, headless=True)

# 爬取网页
result = crawler.crawl('https://example.com', 
                       extract_rules={'title': '//h1/text()',
                                     'content': '//div[@class="content"]//p/text()'})
print(result)

安装

pip install -r requirements.txt
playwright install

项目结构

smart-crawler/
├── SKILL.md                 # Skill说明文档
├── README.md                # 完整文档
├── requirements.txt         # 依赖列表
├── scripts/                 # 核心模块
│   ├── crawler_engine.py    # 爬虫引擎
│   ├── proxy_manager.py     # 代理管理器
│   ├── data_extractor.py    # 数据提取器
│   └── anti_detection.py    # 反检测模块
├── examples/                # 使用示例
│   └── basic_usage.py
└── tests/                   # 单元测试
    └── test_crawler.py

运行测试

cd tests
python test_crawler.py