← 返回 MCP 目录

public公开dns本地运行

mcp_web_scrapper

该项目是一个基于Node.js的MCP服务器爬虫工具，用于从glama.ai网站抓取并提取MCP服务器信息。用户需先安装依赖，运行爬虫脚本获取服务器链接，再通过处理脚本提取详细数据。

article

README

🚀 开始使用MCP服务器抓取器

本项目可让你从glama.ai抓取并提取MCP网络服务器相关信息。下面为你详细介绍设置和运行该抓取器的步骤。

🚀 快速开始

本MCP服务器抓取器能帮助你从指定网站抓取并提取MCP网络服务器的相关数据，操作简单便捷，助你高效获取所需信息。

📦 安装指南

📦 先决条件

Node.js
npm

🔧 安装步骤

克隆仓库

git clone https://github.com/Neche-Stephen/mcp_web_scrapper
cd mcp_web_scrapper

安装依赖项

npm install

💻 使用示例

🗃 检查现有数据

在运行新的抓取任务前，你需要检查servers-json文件夹的情况：

查看servers-json文件夹是否存在。
若该文件夹存在且包含文件，说明之前已经抓取过数据。
若要运行新的抓取批次，需删除servers-json文件夹，可使用以下命令：

rm -rf servers-json

第一步：抓取MCP服务器链接

运行抓取器来收集所有MCP服务器链接，使用以下命令：

node scraper.js

抓取器会启动无头浏览器并开始收集数据。
请耐心等待，此过程可能需要几分钟。
抓取完成后，你会看到“关闭浏览器”的消息。

输出结果：在servers-json文件夹中会生成一个名为server-links.json的文件，其中包含所有抓取到的链接。

第二步：处理并提取服务器数据

现在，使用以下命令从每个服务器链接获取详细信息：

node process-links.js

脚本会读取server-links.json文件并访问每个链接以抓取必要的数据。
终端会显示进度报告。
抓取完成后，你会看到成功消息。

所有抓取的数据将存储在servers-json目录中的不同文件中，文件名即为相应的MCP服务器名称。

badge

发布者 / 作者 / 所有者

person

Neche-StephenMCP Server

open_in_new来源仓库

详情同步2026-05-20 06:00:26IDneche-stephen-mcp-web-scrapper

data_object

技术配置

server_config

{
  "rating": 2,
  "dev_lang": "javascript"
}

category

分类信息

分类

开发工具

标签

MCP爬虫服务器提取数据抓取自动化

语言

zh_cn

help

运行方式说明

cloud

托管运行

托管运行通常表示这个 MCP Server 由服务方环境承载，用户一般按页面提供的连接方式或授权流程接入，不需要在本地长期启动一个 MCP 进程

打开服务方连接页
完成授权或复制端点
在 MCP 客户端中连接

terminal

本地运行 / 其它方式

本地运行通常需要用户在自己的电脑或服务器上安装依赖，把 server_config 复制到 MCP 客户端，并按 env_schema 补齐环境变量、密钥或其它配置

复制 server_config
安装所需依赖
补齐环境变量后重启客户端