article
README
🚀 Fetcher MCP
Fetcher MCP 是一个借助 Playwright 无头浏览器来抓取网页内容的 MCP 服务器。它能处理动态网页内容和现代 web 应用,还可自动提取网页主要内容,支持多种输出格式,能高效完成网页抓取任务。
🚀 快速开始
运行服务器
npm start
安装 Playwright 浏览器
npm run install-browser
✨ 主要特性
- JavaScript支持:与传统网络爬虫不同,Fetcher MCP 使用 Playwright 执行 JavaScript,能够处理动态网页内容和现代 web 应用。
- 智能内容提取:内置可读性算法自动从网页中提取主要内容,去除广告、导航和其他非必要元素。
- 灵活输出格式:支持 HTML 和 Markdown 两种输出格式,便于与各种下游应用程序集成。
- 并行处理:
fetch_urls工具可并发抓取多个网页,提升效率。 - 丰富功能:包括调试模式、自定义浏览器安装和详细的文档说明。
📦 安装指南
安装依赖
npm install
构建项目
npm run build
📚 详细文档
配置 MCP
修改配置文件
编辑 config.json 文件:
{
"port": 3000,
"debug": false,
"proxy": null,
"timeout": 5000,
"maxConcurrency": 10
}
功能说明
fetch_url 命令
抓取单个网页:
curl http://localhost:3000/fetch?url=example.com
支持参数:
url:必填,目标网页地址。depth:爬取深度,默认 1。delay:请求间隔时间,默认 0。user-agent:自定义用户代理字符串。
fetch_urls 命令
批量抓取多个网页:
curl http://localhost:3000/fetch/urls -X POST -H "Content-Type: application/json" -d '{"urls": ["example.com", "test.com"]}'
调试工具
使用 MCP 检查工具进行调试:
npm run inspector
相关项目
- g-search-mcp:一个强大的 MCP 服务器,支持同时使用多个关键词进行并行搜索。非常适合批量数据采集任务。
📄 许可证
遵循 MIT License 协议。
Scan to join WeChat group