JinDaGe - Docs Scraper MCP Details

article

README

🚀 Crawl4AI 文档抓取器

Crawl4AI 文档抓取器能让你的依赖文档保持简洁、最新，且适合 AI 使用。它可以从任何框架或库网站提取干净、专注的文档，既适合人类阅读，也方便大语言模型（LLM）使用。

🚀 快速开始

在当今快速开发的环境中，使用 Crawl4AI 文档抓取器能让你：

📚 快速访问无冗余的依赖文档
🤖 获得适合 RAG 系统和 LLM 的格式
🎯 专注于内容，去除导航元素、广告或其他无关部分
⚡ 快速高效地保持文档更新
🧹 得到清洁的 Markdown 输出，便于与文档工具集成

传统的网络抓取通常会获取所有内容，包括导航菜单、页脚、广告等。而 Crawl4AI 文档抓取器专门设计用于提取实际文档内容。

✨ 主要特性

主要优势

干净的文档输出
- Markdown 格式的内容专注于文档本身。
- JSON 格式的结构化菜单数据。
- 适用于文档网站、Wiki 和知识库。
- 是 LLM 训练和 RAG 系统的理想格式。
智能内容提取
- 自动识别主要内容区域。
- 去除导航、广告和其他无关部分。
- 保留所有原始 Markdown 格式。
- 支持多种语言（包括中文）。
多线程处理
- 并行抓取多个 URL，加快速度。
- 智能管理请求频率，避免被封禁。
错误处理
- 具备全面的错误处理和重试机制。
- 详细的日志记录，便于调试。

📚 详细文档

目录结构

crawl4ai_docs_scraper/
├── input_files/           # 输入文件用于 URL 处理
│   ├── urls.txt          # 每行一个 URL 的文本文件
│   └── menu_links.json   # 从菜单抓取器输出的 JSON 文件
├── scraped_docs/         # Markdown 文件输出目录
│   └── docs_timestamp.md # 生成的文档
├── multi_url_crawler.py
├── menu_crawler.py
└── requirements.txt

错误处理

所有抓取器都包含全面的错误处理和彩色终端输出：

🟢 绿色：成功消息
🔵 青色：处理状态
🟡 黄色：警告
🔴 红色：错误消息

Docs Scraper