Back to MCP directory
publicPublicdnsLocal runtime

mozilla-readability-parser-mcp-server

该项目是基于Mozilla Readability算法的Python实现,通过MCP协议提供网页内容提取和转换服务,将网页内容转换为适合LLM处理的Markdown格式。

article

README

🚀 Mozilla 可读性解析器 MCP 服务器

Mozilla 可读性解析器 MCP 服务器是一个基于 Python 的项目,它依据 Model Context Protocol (MCP) 实现。该服务器的主要功能是提取网页内容,并将其转换为适合大语言模型(LLM)处理的干净 Markdown 格式,有效提升内容处理效率。

🚀 快速开始

启动服务器

fastmcp run server.py

示例请求

curl -X POST http://localhost:8000/tools/extract_content \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com/article"}'

✨ 主要特性

  • 移除广告、导航栏、页脚和其他非必要内容,让网页内容更简洁。
  • 将干净的 HTML 转换为格式良好的 Markdown,方便处理。
  • 平滑处理错误,保障系统稳定运行。
  • 优化 LLM 处理流程,提高处理效率。
  • 轻量且快速,节省资源与时间。

🤔 为何不直接抓取?

与简单的抓取请求相比,此服务器具备以下优势:

  • 使用可读性算法提取相关内容,精准定位核心信息。
  • 消除噪声如广告、弹出窗口和导航菜单,使内容更纯净。
  • 通过移除不必要的 HTML/CSS 减少令牌使用,降低成本。
  • 提供一致的 Markdown 格式以改善 LLM 处理,提升处理效果。
  • 能处理包含动态内容的复杂网页,适应性更强。

📦 安装指南

克隆仓库

git clone https://github.com/jmh108/MCP-server-readability-python.git
cd MCP-server-readability-python

创建并激活虚拟环境

python -m venv venv
source venv/bin/activate  # 在 Windows 上使用:venv\Scripts\activate

安装依赖项

pip install -r requirements.txt

💻 使用示例

extract_content

该工具用于抓取并转换网页内容为干净的 Markdown。

参数

{
  "url": {
    "type": "string",
    "description": "要解析的网站 URL",
    "required": true
  }
}

返回值

{
  "content": "Markdown 内容..."
}

📚 详细文档

MCP 服务器配置

要在 MCP 设置文件中配置该服务器,请添加以下内容:

{
  "mcpServers": {
    "readability": {
      "command": "fastmcp",
      "args": ["run", "server.py"],
      "env": {}
    }
  }
}

然后可以通过 parse 工具启动并访问该服务器。

🔧 技术细节

依赖项

📄 许可证

本项目使用 MIT 许可证。有关详细信息,请参阅 LICENSE 文件。

help

Runtime guide

cloud

Hosted runtime

Hosted servers run from a provider-managed environment. You usually connect the MCP client to the hosted endpoint or follow the provider's authorization flow, without keeping a local process alive

  1. Open provider connection page
  2. Authorize or copy endpoint
  3. Connect from your MCP client
terminal

Local runtime / other methods

Local servers run on your own machine or infrastructure. You normally copy the server_config into your MCP client, install the required package, and provide env variables from env_schema when needed

  1. Copy server_config
  2. Install required package
  3. Fill env variables and restart client