Back to MCP directory
publicPublicdnsLocal runtime

pdf2md-mcp

一个基于AI采样的PDF转Markdown格式的MCP服务器,支持本地文件和URL转换,可增量处理并配置输出目录

article

README

🚀 PDF2MD MCP 服务器

PDF2MD MCP 服务器是一个基于模型上下文协议(MCP)的服务,借助人工智能采样能力,能够将 PDF 文件高效转换为 Markdown 格式,极大提升文档处理效率。

✨ 主要特性

  • 智能内容提取:利用人工智能技术精准提取 PDF 文件内容,并转换为 Markdown 格式。
  • 多源支持:既支持本地文件路径,也支持通过 URL 访问的远程 PDF 文件转换。
  • 断点续传:支持增量转换,可从上次中断的位置继续进行转换。
  • 灵活输出:输出目录可自定义配置。
  • 高性能运行:基于 FastMCP 构建,具备出色的性能表现。

📦 安装指南

pip install pdf2md-mcp

💻 使用示例

基础用法

启动 MCP 服务器:

pdf2md-mcp

服务器启动后,将提供用于 PDF 转 Markdown 的 MCP 工具。

高级用法

convert_pdf_to_markdown

该工具使用人工智能采样功能,将 PDF 文件转换为 Markdown 格式。

参数说明

  • file_path(字符串):PDF 文件的本地路径或 URL。
  • output_dir(字符串,可选):Markdown 文件的输出目录。对于本地文件,默认与输入文件在同一目录;对于 URL 文件,默认是当前工作目录。

返回值

  • output_file:生成的 Markdown 文件的路径。
  • summary:转换任务的摘要。
  • pages_processed:已处理的页面数量。

📚 详细文档

运行要求

  • Python 3.10 及以上版本。
  • 具备人工智能采样能力的 MCP 兼容客户端。
  • 若使用基于 URL 的 PDF 文件,需具备网络访问权限。

开发相关

环境搭建

git clone https://github.com/shuminghuang/pdf2md-mcp.git
cd pdf2md-mcp
pip install -e ".[dev]"

运行测试

pytest

代码格式化

black .
isort .

📄 许可证

本项目采用 MIT 许可证,详情请参阅 LICENSE 文件。

🤝 贡献说明

欢迎大家为项目贡献力量!请随时提交拉取请求。

help

Runtime guide

cloud

Hosted runtime

Hosted servers run from a provider-managed environment. You usually connect the MCP client to the hosted endpoint or follow the provider's authorization flow, without keeping a local process alive

  1. Open provider connection page
  2. Authorize or copy endpoint
  3. Connect from your MCP client
terminal

Local runtime / other methods

Local servers run on your own machine or infrastructure. You normally copy the server_config into your MCP client, install the required package, and provide env variables from env_schema when needed

  1. Copy server_config
  2. Install required package
  3. Fill env variables and restart client