README
🚀 Crawl4AI MCP 服务器
Crawl4AI MCP 服务器是一个基于 MCP(模型上下文协议)的智能信息获取服务器。它为 AI 助手系统赋予强大的搜索能力,同时具备面向大语言模型优化的网页内容理解功能。通过多引擎搜索与智能内容提取,能助力 AI 系统高效获取并理解互联网信息,且支持以 markdown_with_citations 格式输出,方便大语言模型引用与处理。
🚀 快速开始
本服务器能为 AI 系统提供高效的信息获取与理解能力。你可按以下步骤进行安装与使用。
✨ 主要特性
- 多引擎搜索:默认集成 DuckDuckGo 搜索引擎,还支持扩展 Google 搜索(需配置)。
- LLM 优化内容提取:专为大语言模型设计内容过滤与提取机制,自动去除导航栏、广告等无用信息,保留关键内容和 URL 引用。
- 专注信息价值:通过最小词数阈值(10)过滤无效片段,确保输出内容高质量、高相关。
📦 安装指南
常规安装
# 创建虚拟环境并激活
python -m venv env
source env/bin/activate # 在macOS/Linux下
env\Scripts\activate # 在Windows下
# 安装依赖项
pip install -r requirements.txt
# 配置服务器
cp config_demo.json config.json
# 启动服务器
python src/index.py
Claude 客户端插件安装
# 使用smithery CLI安装到Claude Sonnet 3.5
smithery plugin install @weidwonder/crawl4ai-mcp-server --development
💻 使用示例
基础用法
搜索功能(search)
示例请求:
curl -X POST "http://localhost:8000/api/search" \
-H "Content-Type: application/json" \
-d '{"query":"AI技术发展历史","gl":null,"hl":null}'
输出格式:
- 支持 markdown_with_citations 和 plaintext 两种格式,默认为 markdown_with_citations。
- 每个结果包含标题、内容摘录、原始 URL 和相关性评分。
内容提取与处理(read_url)
示例请求:
curl -X POST "http://localhost:8000/api/read_url" \
-H "Content-Type: application/json" \
-d '{"url":"https://example.com"}'
📚 详细文档
项目结构
crawl4ai_mcp_server/
├── src/
│ ├── index.py # 服务器主实现
│ └── search.py # 搜索功能实现
├── config_demo.json # 配置文件示例
├── pyproject.toml # 项目配置
├── requirements.txt # 依赖列表
└── README.md # 项目文档
配置说明
-
复制配置模板:
cp config_demo.json config.json -
配置 Google 搜索(可选):
- 在
config.json中添加以下内容:{ "google": { "api_key": "your_google_api_key", "cse_id": "your_google_cse_id" } }
- 在
📄 更新日志
- 2025.02.08:新增搜索功能,支持 DuckDuckGo(默认)和 Google 搜索。
- 2025.02.07:重构项目结构,采用 FastMCP 实现,优化依赖管理。
- 2025.02.07:优化内容过滤配置,提升 token 效率并保持 URL 完整性。
📄 许可证
本项目遵循 MIT License 协议。
🤝 贡献指南
欢迎提交问题和 Pull Request! GitHub 仓库地址:https://github.com/weidwonder/crawl4ai-mcp-server
👨💻 作者信息
- 项目负责人:weidwonder
- 主要开发者:Claude Sonnet 3.5
- 完全由 Claude 编写代码。耗时总计约 3 小时,其中编码 0.5 小时,环境准备 0.5 小时,调试 2 小时。
🙏 致谢
感谢所有为项目贡献力量的开发者!
特别鸣谢:
- Crawl4ai 项目提供的优秀网页内容提取技术支持
Scan to contact