article
README
🚀 Crawl4AI 文档抓取器
Crawl4AI 文档抓取器能让你的依赖文档保持简洁、最新,且适合 AI 使用。它可以从任何框架或库网站提取干净、专注的文档,既适合人类阅读,也方便大语言模型(LLM)使用。
🚀 快速开始
在当今快速开发的环境中,使用 Crawl4AI 文档抓取器能让你:
- 📚 快速访问无冗余的依赖文档
- 🤖 获得适合 RAG 系统和 LLM 的格式
- 🎯 专注于内容,去除导航元素、广告或其他无关部分
- ⚡ 快速高效地保持文档更新
- 🧹 得到清洁的 Markdown 输出,便于与文档工具集成
传统的网络抓取通常会获取所有内容,包括导航菜单、页脚、广告等。而 Crawl4AI 文档抓取器专门设计用于提取实际文档内容。
✨ 主要特性
主要优势
- 干净的文档输出
- Markdown 格式的内容专注于文档本身。
- JSON 格式的结构化菜单数据。
- 适用于文档网站、Wiki 和知识库。
- 是 LLM 训练和 RAG 系统的理想格式。
- 智能内容提取
- 自动识别主要内容区域。
- 去除导航、广告和其他无关部分。
- 保留所有原始 Markdown 格式。
- 支持多种语言(包括中文)。
- 多线程处理
- 并行抓取多个 URL,加快速度。
- 智能管理请求频率,避免被封禁。
- 错误处理
- 具备全面的错误处理和重试机制。
- 详细的日志记录,便于调试。
📚 详细文档
目录结构
crawl4ai_docs_scraper/
├── input_files/ # 输入文件用于 URL 处理
│ ├── urls.txt # 每行一个 URL 的文本文件
│ └── menu_links.json # 从菜单抓取器输出的 JSON 文件
├── scraped_docs/ # Markdown 文件输出目录
│ └── docs_timestamp.md # 生成的文档
├── multi_url_crawler.py
├── menu_crawler.py
└── requirements.txt
错误处理
所有抓取器都包含全面的错误处理和彩色终端输出:
- 🟢 绿色:成功消息
- 🔵 青色:处理状态
- 🟡 黄色:警告
- 🔴 红色:错误消息
Scan to join WeChat group