README
🚀 Crawl4AI MCP 服务器
Crawl4AI MCP 服务器是一个将 Crawl4AI 集成到 Cursor AI 中的 Model Context Protocol (MCP) 服务器实现。它为大语言模型(LLM)在 Cursor Composer 的代理模式中提供网络抓取和爬虫功能,极大地拓展了 LLM 的信息获取能力。
🚀 快速开始
在使用 Crawl4AI MCP 服务器之前,需要确保系统满足一定要求,然后按照安装说明进行操作。
系统要求
- 安装了 Python 3.10 或更高版本。
安装说明
基本设置说明也在 官方文档 MCP 服务器快速入门 中提供。以下是详细的安装步骤:
设置您的环境
首先,安装 uv 并设置 Python 项目和环境:
- MacOS/Linux:
curl -LsSf https://astral.sh/uv/install.sh | sh
- Windows:
powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.ps1 | iex"
确保之后重新启动终端,以便 uv 命令被识别。
完成安装步骤
- 克隆仓库。
- 使用 UV 安装依赖项(仅第一次):
# 进入 crawl4ai-mcp 目录
cd crawl4ai-mcp
# 安装依赖项 (仅第一次)
uv venv
uv sync
# 激活虚拟环境
source .venv/bin/activate
# 运行服务器
python main.py
- 添加到 Cursor 的 MCP 服务器或 Claude 的 MCP 服务器中。
您可能需要在命令字段中提供
uv可执行文件的完整路径。可以通过运行which uv在 MacOS/Linux 或where uv在 Windows 上获得。
{
"mcpServers": {
"Crawl4AI": {
"command": "uv",
"args": [
"--directory",
"/ABSOLUTE/PATH/TO/PARENT/FOLDER/crawl4ai-mcp",
"run",
"main.py"
]
}
}
}
✨ 主要特性
- 单页抓取:能够精准抓取指定网页的内容和元数据。
- 网站爬取:可以从指定 URL 开始进行爬虫活动,并根据要求限制爬取深度和页面数量。
💻 使用示例
基础用法
以下是如何使用提供的工具进行单页抓取和网站爬取的示例:
# 单页抓取示例
import crawl4ai_mcp
# 抓取指定网页
result = crawl4ai_mcp.scrape_webpage("https://example.com")
print(result)
# 网站爬取示例
result = crawl4ai_mcp.crawl_website("https://example.com", crawl_depth=2, max_pages=10)
print(result)
📚 详细文档
提供的工具
此 MCP 服务器为 LLM 提供以下工具:
scrape_webpage(url: str)
- 描述:使用 Crawl4AI 抓取指定网页的内容和元数据。
- 参数:
url(字符串,必需):要抓取的网页 URL。
- 返回:包含一个
TextContent对象的列表,该对象包含以 Markdown 格式为主的抓取内容作为 JSON。
crawl_website(url: str, crawl_depth: int = 1, max_pages: int = 5)
- 描述:使用 Crawl4AI 从指定 URL 开始进行爬虫活动,深度和页面数量根据要求限制。
- 参数:
url(字符串,必需):要开始爬取的起始 URL。crawl_depth(整数,可选,默认值为 1):相对于起始 URL 的最大爬取深度。max_pages(整数,可选,默认值为 5):爬取过程中抓取的最大页面数量。
- 返回:包含一个
TextContent对象的列表,该对象包含 JSON 数组结果,表示爬取的页面信息(包括 URL、成功状态、Markdown 内容或错误)。
Scan to contact