JinDaGe - crawl4ai-mcp-server MCP Details

article

README

🚀 Crawl4AI MCP 服务器

Crawl4AI MCP 服务器是一个基于 MCP（模型上下文协议）的智能信息获取服务器。它为 AI 助手系统赋予强大的搜索能力，同时具备面向大语言模型优化的网页内容理解功能。通过多引擎搜索与智能内容提取，能助力 AI 系统高效获取并理解互联网信息，且支持以 markdown_with_citations 格式输出，方便大语言模型引用与处理。

🚀 快速开始

本服务器能为 AI 系统提供高效的信息获取与理解能力。你可按以下步骤进行安装与使用。

✨ 主要特性

多引擎搜索：默认集成 DuckDuckGo 搜索引擎，还支持扩展 Google 搜索（需配置）。
LLM 优化内容提取：专为大语言模型设计内容过滤与提取机制，自动去除导航栏、广告等无用信息，保留关键内容和 URL 引用。
专注信息价值：通过最小词数阈值（10）过滤无效片段，确保输出内容高质量、高相关。

📦 安装指南

常规安装

# 创建虚拟环境并激活
python -m venv env
source env/bin/activate  # 在macOS/Linux下
env\Scripts\activate      # 在Windows下

# 安装依赖项
pip install -r requirements.txt

# 配置服务器
cp config_demo.json config.json

# 启动服务器
python src/index.py

Claude 客户端插件安装

# 使用smithery CLI安装到Claude Sonnet 3.5
smithery plugin install @weidwonder/crawl4ai-mcp-server --development

💻 使用示例

基础用法

搜索功能（`search`）

示例请求：

curl -X POST "http://localhost:8000/api/search" \
     -H "Content-Type: application/json" \
     -d '{"query":"AI技术发展历史","gl":null,"hl":null}'

输出格式：

支持 markdown_with_citations 和 plaintext 两种格式，默认为 markdown_with_citations。
每个结果包含标题、内容摘录、原始 URL 和相关性评分。

内容提取与处理（`read_url`）

示例请求：

curl -X POST "http://localhost:8000/api/read_url" \
     -H "Content-Type: application/json" \
     -d '{"url":"https://example.com"}'

📚 详细文档

项目结构

crawl4ai_mcp_server/
├── src/
│   ├── index.py      # 服务器主实现
│   └── search.py     # 搜索功能实现
├── config_demo.json  # 配置文件示例
├── pyproject.toml    # 项目配置
├── requirements.txt  # 依赖列表
└── README.md         # 项目文档

配置说明

复制配置模板：
```
cp config_demo.json config.json
```

配置 Google 搜索（可选）：

在config.json中添加以下内容：

{
    "google": {
        "api_key": "your_google_api_key",
        "cse_id": "your_google_cse_id"
    }
}

📄 更新日志

2025.02.08：新增搜索功能，支持 DuckDuckGo（默认）和 Google 搜索。
2025.02.07：重构项目结构，采用 FastMCP 实现，优化依赖管理。
2025.02.07：优化内容过滤配置，提升 token 效率并保持 URL 完整性。

📄 许可证

本项目遵循 MIT License 协议。

🤝 贡献指南

欢迎提交问题和 Pull Request！ GitHub 仓库地址：https://github.com/weidwonder/crawl4ai-mcp-server

👨‍💻 作者信息

项目负责人：weidwonder
主要开发者：Claude Sonnet 3.5
- 完全由 Claude 编写代码。耗时总计约 3 小时，其中编码 0.5 小时，环境准备 0.5 小时，调试 2 小时。

🙏 致谢

感谢所有为项目贡献力量的开发者！

特别鸣谢：

Crawl4ai 项目提供的优秀网页内容提取技术支持

crawl4ai-mcp-server

README

🚀 Crawl4AI MCP 服务器

🚀 快速开始

✨ 主要特性

📦 安装指南

常规安装

Claude 客户端插件安装

💻 使用示例

基础用法

搜索功能（`search`）

内容提取与处理（`read_url`）

📚 详细文档

项目结构

配置说明

📄 更新日志

📄 许可证

🤝 贡献指南

👨‍💻 作者信息

🙏 致谢

Runtime guide

Hosted runtime

Local runtime / other methods

crawl4ai-mcp-server

README

🚀 Crawl4AI MCP 服务器

🚀 快速开始

✨ 主要特性

📦 安装指南

常规安装

Claude 客户端插件安装

💻 使用示例

基础用法

搜索功能（search）

内容提取与处理（read_url）

📚 详细文档

项目结构

配置说明

📄 更新日志

📄 许可证

🤝 贡献指南

👨‍💻 作者信息

🙏 致谢

Runtime guide

Hosted runtime

Local runtime / other methods

搜索功能（`search`）

内容提取与处理（`read_url`）