Back to MCP directory
publicPublicdnsLocal runtime

Docs Scraper

一个专注于高效爬取和清理依赖文档的工具包,适用于人类阅读和AI处理。

article

README

🚀 Crawl4AI 文档抓取器

Crawl4AI 文档抓取器能让你的依赖文档保持简洁、最新,且适合 AI 使用。它可以从任何框架或库网站提取干净、专注的文档,既适合人类阅读,也方便大语言模型(LLM)使用。

🚀 快速开始

在当今快速开发的环境中,使用 Crawl4AI 文档抓取器能让你:

  • 📚 快速访问无冗余的依赖文档
  • 🤖 获得适合 RAG 系统和 LLM 的格式
  • 🎯 专注于内容,去除导航元素、广告或其他无关部分
  • ⚡ 快速高效地保持文档更新
  • 🧹 得到清洁的 Markdown 输出,便于与文档工具集成

传统的网络抓取通常会获取所有内容,包括导航菜单、页脚、广告等。而 Crawl4AI 文档抓取器专门设计用于提取实际文档内容。

✨ 主要特性

主要优势

  1. 干净的文档输出
    • Markdown 格式的内容专注于文档本身。
    • JSON 格式的结构化菜单数据。
    • 适用于文档网站、Wiki 和知识库。
    • 是 LLM 训练和 RAG 系统的理想格式。
  2. 智能内容提取
    • 自动识别主要内容区域。
    • 去除导航、广告和其他无关部分。
    • 保留所有原始 Markdown 格式。
    • 支持多种语言(包括中文)。
  3. 多线程处理
    • 并行抓取多个 URL,加快速度。
    • 智能管理请求频率,避免被封禁。
  4. 错误处理
    • 具备全面的错误处理和重试机制。
    • 详细的日志记录,便于调试。

📚 详细文档

目录结构

crawl4ai_docs_scraper/
├── input_files/           # 输入文件用于 URL 处理
│   ├── urls.txt          # 每行一个 URL 的文本文件
│   └── menu_links.json   # 从菜单抓取器输出的 JSON 文件
├── scraped_docs/         # Markdown 文件输出目录
│   └── docs_timestamp.md # 生成的文档
├── multi_url_crawler.py
├── menu_crawler.py
└── requirements.txt

错误处理

所有抓取器都包含全面的错误处理和彩色终端输出:

  • 🟢 绿色:成功消息
  • 🔵 青色:处理状态
  • 🟡 黄色:警告
  • 🔴 红色:错误消息
help

Runtime guide

cloud

Hosted runtime

Hosted servers run from a provider-managed environment. You usually connect the MCP client to the hosted endpoint or follow the provider's authorization flow, without keeping a local process alive

  1. Open provider connection page
  2. Authorize or copy endpoint
  3. Connect from your MCP client
terminal

Local runtime / other methods

Local servers run on your own machine or infrastructure. You normally copy the server_config into your MCP client, install the required package, and provide env variables from env_schema when needed

  1. Copy server_config
  2. Install required package
  3. Fill env variables and restart client