JinDaGe - Crawl4AI (Web Scraping & Crawling) MCP Details

article

README

🚀 Crawl4AI MCP 服务器

Crawl4AI MCP 服务器是一个将 Crawl4AI 集成到 Cursor AI 中的 Model Context Protocol (MCP) 服务器实现。它为大语言模型（LLM）在 Cursor Composer 的代理模式中提供网络抓取和爬虫功能，极大地拓展了 LLM 的信息获取能力。

🚀 快速开始

在使用 Crawl4AI MCP 服务器之前，需要确保系统满足一定要求，然后按照安装说明进行操作。

系统要求

安装了 Python 3.10 或更高版本。

安装说明

基本设置说明也在官方文档 MCP 服务器快速入门中提供。以下是详细的安装步骤：

设置您的环境

首先，安装 uv 并设置 Python 项目和环境：

MacOS/Linux：

curl -LsSf https://astral.sh/uv/install.sh | sh

Windows：

powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.ps1 | iex"

确保之后重新启动终端，以便 uv 命令被识别。

完成安装步骤

克隆仓库。
使用 UV 安装依赖项（仅第一次）：

# 进入 crawl4ai-mcp 目录
cd crawl4ai-mcp

# 安装依赖项 (仅第一次)
uv venv
uv sync

# 激活虚拟环境
source .venv/bin/activate

# 运行服务器
python main.py

添加到 Cursor 的 MCP 服务器或 Claude 的 MCP 服务器中。您可能需要在命令字段中提供 uv 可执行文件的完整路径。可以通过运行 which uv 在 MacOS/Linux 或 where uv 在 Windows 上获得。

{
  "mcpServers": {
    "Crawl4AI": {
      "command": "uv",
      "args": [
        "--directory",
        "/ABSOLUTE/PATH/TO/PARENT/FOLDER/crawl4ai-mcp",
        "run",
        "main.py"
      ]
    }
  }
}

✨ 主要特性

单页抓取：能够精准抓取指定网页的内容和元数据。
网站爬取：可以从指定 URL 开始进行爬虫活动，并根据要求限制爬取深度和页面数量。

💻 使用示例

基础用法

以下是如何使用提供的工具进行单页抓取和网站爬取的示例：

# 单页抓取示例
import crawl4ai_mcp

# 抓取指定网页
result = crawl4ai_mcp.scrape_webpage("https://example.com")
print(result)

# 网站爬取示例
result = crawl4ai_mcp.crawl_website("https://example.com", crawl_depth=2, max_pages=10)
print(result)

📚 详细文档

提供的工具

此 MCP 服务器为 LLM 提供以下工具：

`scrape_webpage(url: str)`

描述：使用 Crawl4AI 抓取指定网页的内容和元数据。
参数：
- url (字符串，必需)：要抓取的网页 URL。
返回：包含一个 TextContent 对象的列表，该对象包含以 Markdown 格式为主的抓取内容作为 JSON。

`crawl_website(url: str, crawl_depth: int = 1, max_pages: int = 5)`

描述：使用 Crawl4AI 从指定 URL 开始进行爬虫活动，深度和页面数量根据要求限制。
参数：
- url (字符串，必需)：要开始爬取的起始 URL。
- crawl_depth (整数，可选，默认值为 1)：相对于起始 URL 的最大爬取深度。
- max_pages (整数，可选，默认值为 5)：爬取过程中抓取的最大页面数量。
返回：包含一个 TextContent 对象的列表，该对象包含 JSON 数组结果，表示爬取的页面信息（包括 URL、成功状态、Markdown 内容或错误）。

Crawl4AI (Web Scraping & Crawling)