README
🚀 Crawl4AI 智能网络爬虫与人工智能处理服务器(MCP)
Crawl4AI 是一款 MCP(模型 - 控制器 - 处理器)服务器,专注于智能网络爬取和人工智能内容分析。它提供简单易用的 API,支持从网站抓取数据,并借助 Claude AI 模型对内容进行处理,为特定网站内容的深入分析提供有力支持。
🚀 快速开始
Crawl4AI 主要面向需要深入分析特定网站内容的个人和组织。与通用搜索引擎或人工智能助手提供的广泛但浅层的结果不同,它能提供针对具体目标网站的深度洞察。
理想适用场景
- 研究人员:从特定网站或学术资源中提取结构化信息。
- 内容创作者:分析竞争对手的内容或行业趋势。
- 数据分析师:为商业智能目的处理网络数据。
- 开发者:构建需要网络内容分析功能的应用程序。
- 数字营销人员:分析行业网站、博客或竞争对手内容。
- 业务分析师:从多个来源收集行业特定信息。
- 知识工作者:对具体领域的内容进行综合分析。
用户如何受益于 Crawl4AI
与通用搜索和人工智能工具相比,Crawl4AI 具有显著优势:
- 深度优先于广度:专注于特定网站的全面分析,而非广泛但表面的结果。
- 可定制爬取参数:完全控制爬取深度、内容提取方式及处理流程。
- 程序化集成:轻松将网络内容分析功能整合到应用程序和数据管道中。
- 灵活的人工智能处理:对同一内容应用不同的分析方法(摘要、事实抽取、分类等)。
- 高效的内容理解:通过先进的语言模型从文本中提取洞察。
- 增强的决策支持:为商业和技术决策提供可靠的数据支持。
✨ 主要特性
- 网络爬取:利用 Puppeteer 和 Cheerio 实现高效的页面抓取和解析。
- 内容处理:使用先进的人工智能模型对抓取的内容进行分析和理解。
- 可扩展架构:模块化设计,支持灵活的扩展和自定义功能。
- 日志记录与监控:通过 Winston 进行详细的运行状态跟踪。
- 安全合规:内置反反爬机制,确保符合网站使用政策。
📦 安装指南
- 克隆项目仓库:
git clone https://github.com/yourusername/crawl4ai.git
cd crawl4ai
- 安装依赖项:
npm install
-
配置环境变量:
- 设置
PORT为服务器运行的端口,默认为 3000。 - 设置
ANTHROPIC_API_KEY为你在 Anthropic 获得的 API 密钥。
- 设置
-
启动服务:
npm start
💻 使用示例
基础用法
示例:抓取并分析网页内容
curl -X POST http://localhost:3000/api/crawl \
-H "Content-Type: application/json" \
-d '{
"url": "https://example.com",
"depth": 1,
"aiProcessing": {
"task": "summarize"
}
}'
高级用法
用例 1:抓取并生成网页摘要
curl -X POST http://localhost:3000/api/crawl \
-H "Content-Type: application/json" \
-d '{
"url": "https://example.com/blog/post",
"depth": 2,
"aiProcessing": {
"task": "summarize",
"options": {
"length": "short"
}
}
}'
用例 2:抓取并识别网页主题
curl -X POST http://localhost:3000/api/crawl \
-H "Content-Type: application/json" \
-d '{
"url": "https://example.com/product",
"depth": 1,
"aiProcessing": {
"task": "classify",
"model": "content_classifier"
}
}'
📚 详细文档
配置选项
| 属性 | 详情 |
|------|------|
| PORT | 服务器监听的端口,默认为 3000 |
| ANTHROPIC_API_KEY | Anthropic 提供的人工智能 API 访问密钥 |
| DEBUG | 设置为 "true" 可以启用调试日志输出 |
📄 许可证
本项目采用 MIT 许可证。
致谢
该项目使用以下优秀库:
- Express:高效的 Web 应用框架。
- Puppeteer:强大的浏览器自动化工具。
- Cheerio:快速的 HTML 操纵库。
- Winston:灵活的日志记录解决方案。
- @anthropic-ai/sdk:Anthropic 的人工智能开发工具包。
Scan to contact