README
🚀 WebScraping.AI MCP 服务器文档
WebScraping.AI MCP 服务器基于 Model Context Protocol (MCP),可与大型语言模型(LLMs)集成。它实现了 Model Context Protocol,支持任何启用 MCP 的 LLM 平台,为网页数据处理和语言模型交互提供了便利。
🚀 快速开始
WebScraping.AI 提供了一个基于 Model Context Protocol (MCP) 的服务器,用于与大型语言模型(LLMs)集成。要使用该服务器,你可以按照下面的步骤进行操作。
📦 安装指南
克隆仓库
git clone https://github.com/webscraping-ai/webscraping-ai-mcp-server.git
cd webscraping-ai-mcp-server
安装依赖项
npm install
📚 详细文档
配置
创建并编辑 .env 文件,添加以下环境变量:
WEBSCRAPING_AI_API_KEY:你的 WebScraping.AI API 密钥- 其他可选环境变量如代理和日志级别
示例 .env 文件内容如下:
WEBSCRAPING_AI_API_KEY=your-api-key
# Optional proxy settings
HTTP_PROXY=http://example.com:1080
HTTPS_PROXY=https://example.com:1080
NO_PROXY=localhost,127.0.0.1
# 日志级别选项:debug, info, warning, error, critical
LOG_LEVEL=info
使用示例
基础用法
以下是一个使用 webscraping-ai-mcp 命令行工具的示例:
npx webscraping-ai-mcp --url https://example.com --output json
参数选项
--url:要爬取的目标 URL(必填)--output:输出格式,支持text或json- 其他高级参数如代理设置和请求头
工具列表
网页抓取工具
{
"name": "webscraping_ai_fetch",
"description": "从目标 URL 抓取网页内容。",
"parameters": {
"type": "object",
"properties": {
"url": { "type": "string", "description": "要抓取的 URL" },
"output_format": { "type": "string", "enum": ["text", "json"], "default": "text" }
}
}
}
网站分析工具
{
"name": "webscraping_ai_analyze",
"description": "分析目标网站的技术细节。",
"parameters": {
"type": "object",
"properties": {
"url": { "type": "string", "description": "要分析的 URL" }
}
}
}
账户信息工具
{
"name": "webscraping_ai_account",
"description": "获取 WebScraping.AI 账户信息。",
"parameters": {
"type": "object",
"properties": {}
}
}
错误处理
服务器提供强大的错误处理功能,包括:
- 自动重试机制
- 网络连接恢复
- 请求速率限制处理
- 详细错误日志
示例错误响应
{
"error": {
"code": "403",
"message": "访问被拒绝",
"details": "请求超过了 API 配额"
}
}
与 LLM 的集成
服务器支持通过以下步骤与 LLM 集成:
步骤 1: 安装依赖
npm install web-scraping-ai mcp-service
步骤 2: 创建服务
const { MCPService } = require('mcp-service');
const service = new MCPService({
apiKey: 'your-api-key',
provider: 'openai'
});
开发
启动开发服务器
npm run dev
测试命令
npm test
贡献指南
提交代码
- 创建功能分支
- 提交更改并推送
- 创建拉取请求
📄 许可证
本项目遵循 MIT 许可证,具体内容如下:
- 允许自由使用、复制、修改和分发代码
- 需要在分发作品中包含版权声明
Scan to contact