Back to MCP directory
publicPublicdnsLocal runtime

webscraper

一个为Claude桌面版设计的MCP服务器,能够通过链接抓取网页文本、YouTube视频字幕和PDF文件内容。

article

README

🚀 MCP网络爬虫

MCP网络爬虫是Claude桌面版MCP服务器的一项功能,它能让Claude通过链接抓取网站文本。此外,它还支持从YouTube链接抓取字幕,以及从PDF链接提取PDF内容。

🚀 快速开始

Claude桌面版的MCP服务器具备强大的网页内容抓取能力,能够依据用户提供的不同类型链接,精准抓取相应的文本信息。

✨ 主要特性

  • 支持从普通网页链接抓取文本内容。
  • 可从YouTube链接中提取视频字幕。
  • 能将PDF链接对应的PDF文件内容转换为Markdown文本。

📚 详细文档

可用工具

get_pdf

  • 功能:将指向PDF文件的URL转换为Markdown文本。
  • 参数
    • input_url (str):要转换的PDF文件路径。
  • 返回值:str类型的markdown_text。

get_webpage_content

  • 功能:根据提供的链接返回网页上的文本内容。当用户提供的链接不是YouTube或GitHub链接,且基于该链接提出问题时,应调用此函数。
  • 参数
    • url:要从中提取文本的URL。

get_youtube_transcript

  • 功能:当从用户那里收到YouTube链接时使用此工具,它将从YouTube视频中提取字幕并返回。若用户在提供链接后询问与该视频相关的问题,可使用此工具来回答。
  • 参数
    • url:要从中提取文本的URL。
help

Runtime guide

cloud

Hosted runtime

Hosted servers run from a provider-managed environment. You usually connect the MCP client to the hosted endpoint or follow the provider's authorization flow, without keeping a local process alive

  1. Open provider connection page
  2. Authorize or copy endpoint
  3. Connect from your MCP client
terminal

Local runtime / other methods

Local servers run on your own machine or infrastructure. You normally copy the server_config into your MCP client, install the required package, and provide env variables from env_schema when needed

  1. Copy server_config
  2. Install required package
  3. Fill env variables and restart client