article
README
🚀 文档抓取器 MCP 服务器
本项目是一个提供文档抓取功能的 Model Context Protocol (MCP) 服务器,它借助 jina.ai 的转换服务,能够将基于网络的文档转换为 Markdown 格式,为文档处理提供了便利。
🚀 快速开始
使用 Python 运行服务器:
python -m mcp_doc_scraper
✨ 主要特性
- 从任何网页 URL 抓取文档
- 将 HTML 文档转换为 Markdown 格式
- 将转换后的文档保存到指定输出路径
- 集成 Model Context Protocol (MCP)
📦 安装指南
使用 Smithery 安装
通过 Smithery 自动安装 Claude Desktop 的 Doc Scraper:
npx -y @smithery/cli install @askjohngeorge/mcp-doc-scraper --client claude
手动安装
- 克隆仓库:
git clone https://github.com/askjohngeorge/mcp-doc-scraper.git
cd mcp-doc-scraper
- 创建并激活虚拟环境:
python -m venv venv
source venv/bin/activate # 在 Windows 上使用: venv\Scripts\activate
- 安装依赖项:
pip install -e .
💻 使用示例
基础用法
该服务器提供一个工具:
- 名称:
scrape_docs - 描述:从 URL 抓取文档并保存为 Markdown 文件
- 输入参数:
url:要抓取的文档 URLoutput_path:要保存 Markdown 文件的路径
📚 详细文档
项目结构
doc_scraper/
├── __init__.py
├── __main__.py
└── server.py
依赖项
| 属性 | 详情 | |------|------| | 依赖项 | aiohttp、mcp、pydantic |
开发
- 安装开发依赖项:
pip install -r requirements.txt
- 该服务器使用 Model Context Protocol。请熟悉 MCP 文档。
📄 许可证
本项目采用 MIT License 进行许可。
微信扫一扫