JinDaGe - pdf2md-mcp MCP Details

article

README

🚀 PDF2MD MCP 服务器

PDF2MD MCP 服务器是一个基于模型上下文协议（MCP）的服务，借助人工智能采样能力，能够将 PDF 文件高效转换为 Markdown 格式，极大提升文档处理效率。

✨ 主要特性

智能内容提取：利用人工智能技术精准提取 PDF 文件内容，并转换为 Markdown 格式。
多源支持：既支持本地文件路径，也支持通过 URL 访问的远程 PDF 文件转换。
断点续传：支持增量转换，可从上次中断的位置继续进行转换。
灵活输出：输出目录可自定义配置。
高性能运行：基于 FastMCP 构建，具备出色的性能表现。

📦 安装指南

pip install pdf2md-mcp

💻 使用示例

基础用法

启动 MCP 服务器：

pdf2md-mcp

服务器启动后，将提供用于 PDF 转 Markdown 的 MCP 工具。

高级用法

`convert_pdf_to_markdown`

该工具使用人工智能采样功能，将 PDF 文件转换为 Markdown 格式。

参数说明：

file_path（字符串）：PDF 文件的本地路径或 URL。
output_dir（字符串，可选）：Markdown 文件的输出目录。对于本地文件，默认与输入文件在同一目录；对于 URL 文件，默认是当前工作目录。

返回值：

output_file：生成的 Markdown 文件的路径。
summary：转换任务的摘要。
pages_processed：已处理的页面数量。

📚 详细文档

运行要求

Python 3.10 及以上版本。
具备人工智能采样能力的 MCP 兼容客户端。
若使用基于 URL 的 PDF 文件，需具备网络访问权限。

开发相关

环境搭建

git clone https://github.com/shuminghuang/pdf2md-mcp.git
cd pdf2md-mcp
pip install -e ".[dev]"

运行测试

pytest

代码格式化

black .
isort .

📄 许可证

本项目采用 MIT 许可证，详情请参阅 LICENSE 文件。

🤝 贡献说明

欢迎大家为项目贡献力量！请随时提交拉取请求。

pdf2md-mcp