← 返回 MCP 目录

public公开dns本地运行

mcp-doc-scraper

一个基于MCP协议的文档爬取转换服务器，可将网页文档转为Markdown格式

article

README

🚀 文档抓取器 MCP 服务器

本项目是一个提供文档抓取功能的 Model Context Protocol (MCP) 服务器，它借助 jina.ai 的转换服务，能够将基于网络的文档转换为 Markdown 格式，为文档处理提供了便利。

🚀 快速开始

使用 Python 运行服务器：

python -m mcp_doc_scraper

✨ 主要特性

从任何网页 URL 抓取文档
将 HTML 文档转换为 Markdown 格式
将转换后的文档保存到指定输出路径
集成 Model Context Protocol (MCP)

📦 安装指南

使用 Smithery 安装

通过 Smithery 自动安装 Claude Desktop 的 Doc Scraper：

npx -y @smithery/cli install @askjohngeorge/mcp-doc-scraper --client claude

手动安装

克隆仓库：

git clone https://github.com/askjohngeorge/mcp-doc-scraper.git
cd mcp-doc-scraper

创建并激活虚拟环境：

python -m venv venv
source venv/bin/activate  # 在 Windows 上使用: venv\Scripts\activate

安装依赖项：

pip install -e .

💻 使用示例

基础用法

该服务器提供一个工具：

名称：scrape_docs
描述：从 URL 抓取文档并保存为 Markdown 文件
输入参数：
- url：要抓取的文档 URL
- output_path：要保存 Markdown 文件的路径

📚 详细文档

项目结构

doc_scraper/
├── __init__.py
├── __main__.py
└── server.py

依赖项

| 属性 | 详情 | |------|------| | 依赖项 | aiohttp、mcp、pydantic |

开发

安装开发依赖项：

pip install -r requirements.txt

该服务器使用 Model Context Protocol。请熟悉 MCP 文档。

📄 许可证

本项目采用 MIT License 进行许可。

badge

发布者 / 作者 / 所有者

person

askjohngeorgeMCP Server

open_in_new来源仓库

详情同步2026-05-21 01:12:58IDaskjohngeorge-mcp-doc-scraper

data_object

技术配置

server_config

{
  "rating": 2.5,
  "dev_lang": "python"
}

category

分类信息

分类

开发工具

标签

文档爬取格式转换MCP服务

语言

zh_cn

help

运行方式说明

cloud

托管运行

托管运行通常表示这个 MCP Server 由服务方环境承载，用户一般按页面提供的连接方式或授权流程接入，不需要在本地长期启动一个 MCP 进程

打开服务方连接页
完成授权或复制端点
在 MCP 客户端中连接

terminal

本地运行 / 其它方式

本地运行通常需要用户在自己的电脑或服务器上安装依赖，把 server_config 复制到 MCP 客户端，并按 env_schema 补齐环境变量、密钥或其它配置

复制 server_config
安装所需依赖
补齐环境变量后重启客户端