金大哥 - Fetch MCP MCP 详情

article

README

🚀 Fetcher MCP

Fetcher MCP 是一个借助 Playwright 无头浏览器来抓取网页内容的 MCP 服务器。它能处理动态网页内容和现代 web 应用，还可自动提取网页主要内容，支持多种输出格式，能高效完成网页抓取任务。

🚀 快速开始

运行服务器

npm start

安装 Playwright 浏览器

npm run install-browser

✨ 主要特性

JavaScript支持：与传统网络爬虫不同，Fetcher MCP 使用 Playwright 执行 JavaScript，能够处理动态网页内容和现代 web 应用。
智能内容提取：内置可读性算法自动从网页中提取主要内容，去除广告、导航和其他非必要元素。
灵活输出格式：支持 HTML 和 Markdown 两种输出格式，便于与各种下游应用程序集成。
并行处理：fetch_urls 工具可并发抓取多个网页，提升效率。
丰富功能：包括调试模式、自定义浏览器安装和详细的文档说明。

📦 安装指南

安装依赖

npm install

构建项目

npm run build

📚 详细文档

配置 MCP

修改配置文件

编辑 config.json 文件：

{
  "port": 3000,
  "debug": false,
  "proxy": null,
  "timeout": 5000,
  "maxConcurrency": 10
}

功能说明

fetch_url 命令

抓取单个网页：

curl http://localhost:3000/fetch?url=example.com

支持参数：

url：必填，目标网页地址。
depth：爬取深度，默认 1。
delay：请求间隔时间，默认 0。
user-agent：自定义用户代理字符串。

fetch_urls 命令

批量抓取多个网页：

curl http://localhost:3000/fetch/urls -X POST -H "Content-Type: application/json" -d '{"urls": ["example.com", "test.com"]}'

调试工具

使用 MCP 检查工具进行调试：

npm run inspector

📄 许可证

遵循 MIT License 协议。

Fetch MCP

README

🚀 Fetcher MCP

🚀 快速开始

运行服务器

安装 Playwright 浏览器

✨ 主要特性

📦 安装指南

安装依赖

构建项目

📚 详细文档

配置 MCP

修改配置文件

功能说明

fetch_url 命令

fetch_urls 命令

调试工具

相关项目

📄 许可证

运行方式说明

托管运行

本地运行 / 其它方式