返回 MCP 目录
public公开dns本地运行

Fetch MCP

Fetcher MCP是一个基于Playwright无头浏览器的网页内容抓取服务,支持JavaScript渲染、智能内容提取和并行处理,提供HTML/Markdown输出格式,适用于动态网页内容获取。

article

README

🚀 Fetcher MCP

Fetcher MCP 是一个借助 Playwright 无头浏览器来抓取网页内容的 MCP 服务器。它能处理动态网页内容和现代 web 应用,还可自动提取网页主要内容,支持多种输出格式,能高效完成网页抓取任务。

🚀 快速开始

运行服务器

npm start

安装 Playwright 浏览器

npm run install-browser

✨ 主要特性

  • JavaScript支持:与传统网络爬虫不同,Fetcher MCP 使用 Playwright 执行 JavaScript,能够处理动态网页内容和现代 web 应用。
  • 智能内容提取:内置可读性算法自动从网页中提取主要内容,去除广告、导航和其他非必要元素。
  • 灵活输出格式:支持 HTML 和 Markdown 两种输出格式,便于与各种下游应用程序集成。
  • 并行处理fetch_urls 工具可并发抓取多个网页,提升效率。
  • 丰富功能:包括调试模式、自定义浏览器安装和详细的文档说明。

📦 安装指南

安装依赖

npm install

构建项目

npm run build

📚 详细文档

配置 MCP

修改配置文件

编辑 config.json 文件:

{
  "port": 3000,
  "debug": false,
  "proxy": null,
  "timeout": 5000,
  "maxConcurrency": 10
}

功能说明

fetch_url 命令

抓取单个网页:

curl http://localhost:3000/fetch?url=example.com

支持参数:

  • url:必填,目标网页地址。
  • depth:爬取深度,默认 1。
  • delay:请求间隔时间,默认 0。
  • user-agent:自定义用户代理字符串。

fetch_urls 命令

批量抓取多个网页:

curl http://localhost:3000/fetch/urls -X POST -H "Content-Type: application/json" -d '{"urls": ["example.com", "test.com"]}'

调试工具

使用 MCP 检查工具进行调试:

npm run inspector

相关项目

  • g-search-mcp:一个强大的 MCP 服务器,支持同时使用多个关键词进行并行搜索。非常适合批量数据采集任务。

📄 许可证

遵循 MIT License 协议。

help

运行方式说明

cloud

托管运行

托管运行通常表示这个 MCP Server 由服务方环境承载,用户一般按页面提供的连接方式或授权流程接入,不需要在本地长期启动一个 MCP 进程

  1. 打开服务方连接页
  2. 完成授权或复制端点
  3. 在 MCP 客户端中连接
terminal

本地运行 / 其它方式

本地运行通常需要用户在自己的电脑或服务器上安装依赖,把 server_config 复制到 MCP 客户端,并按 env_schema 补齐环境变量、密钥或其它配置

  1. 复制 server_config
  2. 安装所需依赖
  3. 补齐环境变量后重启客户端