Back to MCP directory
publicPublicdnsLocal runtime

Crawl4AI (Web Scraping & Crawling)

Crawl4AI MCP服务器为Cursor AI提供网页抓取和爬取功能,集成于Composer代理模式中。

article

README

🚀 Crawl4AI MCP 服务器

Crawl4AI MCP 服务器是一个将 Crawl4AI 集成到 Cursor AI 中的 Model Context Protocol (MCP) 服务器实现。它为大语言模型(LLM)在 Cursor Composer 的代理模式中提供网络抓取和爬虫功能,极大地拓展了 LLM 的信息获取能力。

🚀 快速开始

在使用 Crawl4AI MCP 服务器之前,需要确保系统满足一定要求,然后按照安装说明进行操作。

系统要求

  • 安装了 Python 3.10 或更高版本。

安装说明

基本设置说明也在 官方文档 MCP 服务器快速入门 中提供。以下是详细的安装步骤:

设置您的环境

首先,安装 uv 并设置 Python 项目和环境:

  • MacOS/Linux
curl -LsSf https://astral.sh/uv/install.sh | sh
  • Windows
powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.ps1 | iex"

确保之后重新启动终端,以便 uv 命令被识别。

完成安装步骤

  1. 克隆仓库。
  2. 使用 UV 安装依赖项(仅第一次):
# 进入 crawl4ai-mcp 目录
cd crawl4ai-mcp

# 安装依赖项 (仅第一次)
uv venv
uv sync

# 激活虚拟环境
source .venv/bin/activate

# 运行服务器
python main.py
  1. 添加到 Cursor 的 MCP 服务器或 Claude 的 MCP 服务器中。 您可能需要在命令字段中提供 uv 可执行文件的完整路径。可以通过运行 which uv 在 MacOS/Linux 或 where uv 在 Windows 上获得。
{
  "mcpServers": {
    "Crawl4AI": {
      "command": "uv",
      "args": [
        "--directory",
        "/ABSOLUTE/PATH/TO/PARENT/FOLDER/crawl4ai-mcp",
        "run",
        "main.py"
      ]
    }
  }
}

✨ 主要特性

  • 单页抓取:能够精准抓取指定网页的内容和元数据。
  • 网站爬取:可以从指定 URL 开始进行爬虫活动,并根据要求限制爬取深度和页面数量。

💻 使用示例

基础用法

以下是如何使用提供的工具进行单页抓取和网站爬取的示例:

# 单页抓取示例
import crawl4ai_mcp

# 抓取指定网页
result = crawl4ai_mcp.scrape_webpage("https://example.com")
print(result)

# 网站爬取示例
result = crawl4ai_mcp.crawl_website("https://example.com", crawl_depth=2, max_pages=10)
print(result)

📚 详细文档

提供的工具

此 MCP 服务器为 LLM 提供以下工具:

scrape_webpage(url: str)

  • 描述:使用 Crawl4AI 抓取指定网页的内容和元数据。
  • 参数
    • url (字符串,必需):要抓取的网页 URL。
  • 返回:包含一个 TextContent 对象的列表,该对象包含以 Markdown 格式为主的抓取内容作为 JSON。

crawl_website(url: str, crawl_depth: int = 1, max_pages: int = 5)

  • 描述:使用 Crawl4AI 从指定 URL 开始进行爬虫活动,深度和页面数量根据要求限制。
  • 参数
    • url (字符串,必需):要开始爬取的起始 URL。
    • crawl_depth (整数,可选,默认值为 1):相对于起始 URL 的最大爬取深度。
    • max_pages (整数,可选,默认值为 5):爬取过程中抓取的最大页面数量。
  • 返回:包含一个 TextContent 对象的列表,该对象包含 JSON 数组结果,表示爬取的页面信息(包括 URL、成功状态、Markdown 内容或错误)。
help

Runtime guide

cloud

Hosted runtime

Hosted servers run from a provider-managed environment. You usually connect the MCP client to the hosted endpoint or follow the provider's authorization flow, without keeping a local process alive

  1. Open provider connection page
  2. Authorize or copy endpoint
  3. Connect from your MCP client
terminal

Local runtime / other methods

Local servers run on your own machine or infrastructure. You normally copy the server_config into your MCP client, install the required package, and provide env variables from env_schema when needed

  1. Copy server_config
  2. Install required package
  3. Fill env variables and restart client