Back to MCP directory
publicPublicdnsLocal runtime

mcp-web-extractor

一个基于Readability.js的网页内容提取工具,通过MCP协议服务提供网页正文内容的纯净提取,去除广告等干扰元素,支持与Obsidian笔记软件集成。

article

README

🚀 MCP 网页提取器

MCP 网页提取器是一个基于 Model Context Protocol (MCP) 的服务器,借助 Readability.js 实现网页内容的提取。它能够抓取网页并精准提取主要信息,特别适合将简洁、易读的文章保存至 Obsidian 笔记中。

🚀 快速开始

MCP 网页提取器可让你轻松从网页抓取并提取主要信息。以下是使用前的准备步骤。

✨ 主要特性

  • 支持从任意 URL 提取可读内容。
  • 能自动移除广告、侧边栏等各类干扰项。
  • 不仅返回清洁文本,还包含标题、摘录等元数据。
  • 与 Obsidian 的 MCP 集成简便。

📦 安装指南

# 克隆仓库
git clone https://github.com/iemong/mcp-web-extractor.git
cd mcp-web-extractor

# 安装依赖
npm install

# 构建项目
npm run build

# 启动服务器
npm start

服务器启动后将运行于 http://localhost:3000,MCP 终端位于 http://localhost:3000/mcp。

💻 使用示例

基础用法

你可以使用包含的客户端示例来从 URL 提取内容:

ts-node-esm client-example.ts

高级用法

obsidian-integration.ts 文件提供了如何将此 MCP 服务器与 Obsidian 集成的示例。你可以将其作为创建提取网络内容的 Obsidian 插件的起点。

📚 详细文档

API 文档

MCP 服务器提供以下功能:

  • extract-content:从指定 URL 提取可读内容
    • 参数:{ url: string }
    • 返回:{ title, content, textContent, excerpt, siteName }

📄 许可证

本项目采用 MIT 许可证。

help

Runtime guide

cloud

Hosted runtime

Hosted servers run from a provider-managed environment. You usually connect the MCP client to the hosted endpoint or follow the provider's authorization flow, without keeping a local process alive

  1. Open provider connection page
  2. Authorize or copy endpoint
  3. Connect from your MCP client
terminal

Local runtime / other methods

Local servers run on your own machine or infrastructure. You normally copy the server_config into your MCP client, install the required package, and provide env variables from env_schema when needed

  1. Copy server_config
  2. Install required package
  3. Fill env variables and restart client