article
README
🚀 网页内容获取 MCP 服务器
此MCP服务器具备强大的网页内容抓取能力,可提供HTML、JSON、纯文本和Markdown等多种格式的内容,满足多样化的需求。
🚀 快速开始
克隆与安装
- 克隆仓库。
- 安装依赖,执行命令:
npm install。 - 构建服务器,执行命令:
npm run build。
启动服务器
要使用该服务器,可直接运行以下命令:
npm start
此命令将启动网页内容获取MCP服务器,并在标准输出上运行。
与桌面应用程序集成
若要在桌面应用程序中集成此服务器,请在应用程序的服务器配置中添加以下内容:
{
"mcpServers": {
"fetch": {
"command": "node",
"args": [
"{ABSOLUTE PATH TO FILE HERE}/dist/index.js"
]
}
}
}
✨ 主要特性
- 采用现代Fetch API抓取网页内容,高效便捷。
- 支持自定义头信息请求,灵活满足不同需求。
- 提供HTML、JSON、纯文本和Markdown等多种格式的内容。
- 使用JSDOM进行HTML解析和文本提取,确保内容处理准确。
- 运用TurndownService将HTML转换为Markdown格式。
📦 安装指南
- 克隆仓库。
- 安装依赖:
npm install。 - 构建服务器:
npm run build。
💻 使用示例
基础用法
启动服务器:
npm start
高级用法
与桌面应用程序集成时的配置:
{
"mcpServers": {
"fetch": {
"command": "node",
"args": [
"{ABSOLUTE PATH TO FILE HERE}/dist/index.js"
]
}
}
}
📚 详细文档
组件
工具
-
fetch_html
- 功能:抓取网站并返回HTML内容。
- 输入:
url(字符串,必填):要抓取的网站URL。headers(对象,可选):请求中包含的自定义头信息。
- 返回:网页的原始HTML内容。
-
fetch_json
- 功能:从URL获取JSON文件。
- 输入:
url(字符串,必填):要抓取的JSON URL。headers(对象,可选):请求中包含的自定义头信息。
- 返回:解析后的JSON内容。
-
fetch_txt
- 功能:抓取网站并返回纯文本内容(无HTML)。
- 输入:
url(字符串,必填):要抓取的网站URL。headers(对象,可选):请求中包含的自定义头信息。
- 返回:去除HTML标签、脚本和样式后的网页文本内容。
-
fetch_markdown
- 功能:抓取网站并返回Markdown格式的内容。
- 输入:
url(字符串,必填):要抓取的网站URL。headers(对象,可选):请求中包含的自定义头信息。
- 返回:网页内容转换为Markdown格式后的结果。
资源
此服务器不提供任何持久性资源,其设计目的是按需抓取和转换网络内容。
🔧 技术细节
- 开发过程中,可运行
npm run dev以启动处于监听模式的TypeScript编译器。 - 使用
npm test运行测试套件。
📄 许可证
此项目在MIT License下开源。
Scan to join WeChat group