JinDaGe - mozilla-readability-parser-mcp-server MCP Details

article

README

🚀 Mozilla 可读性解析器 MCP 服务器

Mozilla 可读性解析器 MCP 服务器是一个基于 Python 的项目，它依据 Model Context Protocol (MCP) 实现。该服务器的主要功能是提取网页内容，并将其转换为适合大语言模型（LLM）处理的干净 Markdown 格式，有效提升内容处理效率。

🚀 快速开始

启动服务器

fastmcp run server.py

示例请求

curl -X POST http://localhost:8000/tools/extract_content \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com/article"}'

✨ 主要特性

移除广告、导航栏、页脚和其他非必要内容，让网页内容更简洁。
将干净的 HTML 转换为格式良好的 Markdown，方便处理。
平滑处理错误，保障系统稳定运行。
优化 LLM 处理流程，提高处理效率。
轻量且快速，节省资源与时间。

🤔 为何不直接抓取？

与简单的抓取请求相比，此服务器具备以下优势：

使用可读性算法提取相关内容，精准定位核心信息。
消除噪声如广告、弹出窗口和导航菜单，使内容更纯净。
通过移除不必要的 HTML/CSS 减少令牌使用，降低成本。
提供一致的 Markdown 格式以改善 LLM 处理，提升处理效果。
能处理包含动态内容的复杂网页，适应性更强。

📦 安装指南

克隆仓库

git clone https://github.com/jmh108/MCP-server-readability-python.git
cd MCP-server-readability-python

创建并激活虚拟环境

python -m venv venv
source venv/bin/activate  # 在 Windows 上使用：venv\Scripts\activate

安装依赖项

pip install -r requirements.txt

💻 使用示例

`extract_content`

该工具用于抓取并转换网页内容为干净的 Markdown。

参数：

{
  "url": {
    "type": "string",
    "description": "要解析的网站 URL",
    "required": true
  }
}

返回值：

{
  "content": "Markdown 内容..."
}

📚 详细文档

MCP 服务器配置

要在 MCP 设置文件中配置该服务器，请添加以下内容：

{
  "mcpServers": {
    "readability": {
      "command": "fastmcp",
      "args": ["run", "server.py"],
      "env": {}
    }
  }
}

然后可以通过 parse 工具启动并访问该服务器。

🔧 技术细节

依赖项

readability-lxml - 用于内容提取。
html2text - 实现 HTML 到 Markdown 转换。
beautifulsoup4 - 进行网页解析。
lxml - 用于 XML 处理。

📄 许可证

本项目使用 MIT 许可证。有关详细信息，请参阅 LICENSE 文件。

mozilla-readability-parser-mcp-server