README
🚀 Mozilla 可读性解析器 MCP 服务器
Mozilla 可读性解析器 MCP 服务器是一个基于 Python 的项目,它依据 Model Context Protocol (MCP) 实现。该服务器的主要功能是提取网页内容,并将其转换为适合大语言模型(LLM)处理的干净 Markdown 格式,有效提升内容处理效率。
🚀 快速开始
启动服务器
fastmcp run server.py
示例请求
curl -X POST http://localhost:8000/tools/extract_content \
-H "Content-Type: application/json" \
-d '{"url": "https://example.com/article"}'
✨ 主要特性
- 移除广告、导航栏、页脚和其他非必要内容,让网页内容更简洁。
- 将干净的 HTML 转换为格式良好的 Markdown,方便处理。
- 平滑处理错误,保障系统稳定运行。
- 优化 LLM 处理流程,提高处理效率。
- 轻量且快速,节省资源与时间。
🤔 为何不直接抓取?
与简单的抓取请求相比,此服务器具备以下优势:
- 使用可读性算法提取相关内容,精准定位核心信息。
- 消除噪声如广告、弹出窗口和导航菜单,使内容更纯净。
- 通过移除不必要的 HTML/CSS 减少令牌使用,降低成本。
- 提供一致的 Markdown 格式以改善 LLM 处理,提升处理效果。
- 能处理包含动态内容的复杂网页,适应性更强。
📦 安装指南
克隆仓库
git clone https://github.com/jmh108/MCP-server-readability-python.git
cd MCP-server-readability-python
创建并激活虚拟环境
python -m venv venv
source venv/bin/activate # 在 Windows 上使用:venv\Scripts\activate
安装依赖项
pip install -r requirements.txt
💻 使用示例
extract_content
该工具用于抓取并转换网页内容为干净的 Markdown。
参数:
{
"url": {
"type": "string",
"description": "要解析的网站 URL",
"required": true
}
}
返回值:
{
"content": "Markdown 内容..."
}
📚 详细文档
MCP 服务器配置
要在 MCP 设置文件中配置该服务器,请添加以下内容:
{
"mcpServers": {
"readability": {
"command": "fastmcp",
"args": ["run", "server.py"],
"env": {}
}
}
}
然后可以通过 parse 工具启动并访问该服务器。
🔧 技术细节
依赖项
- readability-lxml - 用于内容提取。
- html2text - 实现 HTML 到 Markdown 转换。
- beautifulsoup4 - 进行网页解析。
- lxml - 用于 XML 处理。
📄 许可证
本项目使用 MIT 许可证。有关详细信息,请参阅 LICENSE 文件。
Scan to join WeChat group