返回 MCP 目录
public公开dns本地运行

pdf2md-mcp

一个基于AI采样的PDF转Markdown格式的MCP服务器,支持本地文件和URL转换,可增量处理并配置输出目录

article

README

🚀 PDF2MD MCP 服务器

PDF2MD MCP 服务器是一个基于模型上下文协议(MCP)的服务,借助人工智能采样能力,能够将 PDF 文件高效转换为 Markdown 格式,极大提升文档处理效率。

✨ 主要特性

  • 智能内容提取:利用人工智能技术精准提取 PDF 文件内容,并转换为 Markdown 格式。
  • 多源支持:既支持本地文件路径,也支持通过 URL 访问的远程 PDF 文件转换。
  • 断点续传:支持增量转换,可从上次中断的位置继续进行转换。
  • 灵活输出:输出目录可自定义配置。
  • 高性能运行:基于 FastMCP 构建,具备出色的性能表现。

📦 安装指南

pip install pdf2md-mcp

💻 使用示例

基础用法

启动 MCP 服务器:

pdf2md-mcp

服务器启动后,将提供用于 PDF 转 Markdown 的 MCP 工具。

高级用法

convert_pdf_to_markdown

该工具使用人工智能采样功能,将 PDF 文件转换为 Markdown 格式。

参数说明

  • file_path(字符串):PDF 文件的本地路径或 URL。
  • output_dir(字符串,可选):Markdown 文件的输出目录。对于本地文件,默认与输入文件在同一目录;对于 URL 文件,默认是当前工作目录。

返回值

  • output_file:生成的 Markdown 文件的路径。
  • summary:转换任务的摘要。
  • pages_processed:已处理的页面数量。

📚 详细文档

运行要求

  • Python 3.10 及以上版本。
  • 具备人工智能采样能力的 MCP 兼容客户端。
  • 若使用基于 URL 的 PDF 文件,需具备网络访问权限。

开发相关

环境搭建

git clone https://github.com/shuminghuang/pdf2md-mcp.git
cd pdf2md-mcp
pip install -e ".[dev]"

运行测试

pytest

代码格式化

black .
isort .

📄 许可证

本项目采用 MIT 许可证,详情请参阅 LICENSE 文件。

🤝 贡献说明

欢迎大家为项目贡献力量!请随时提交拉取请求。

help

运行方式说明

cloud

托管运行

托管运行通常表示这个 MCP Server 由服务方环境承载,用户一般按页面提供的连接方式或授权流程接入,不需要在本地长期启动一个 MCP 进程

  1. 打开服务方连接页
  2. 完成授权或复制端点
  3. 在 MCP 客户端中连接
terminal

本地运行 / 其它方式

本地运行通常需要用户在自己的电脑或服务器上安装依赖,把 server_config 复制到 MCP 客户端,并按 env_schema 补齐环境变量、密钥或其它配置

  1. 复制 server_config
  2. 安装所需依赖
  3. 补齐环境变量后重启客户端