article
README
🚀 PDF2MD MCP 服务器
PDF2MD MCP 服务器是一个基于模型上下文协议(MCP)的服务,借助人工智能采样能力,能够将 PDF 文件高效转换为 Markdown 格式,极大提升文档处理效率。
✨ 主要特性
- 智能内容提取:利用人工智能技术精准提取 PDF 文件内容,并转换为 Markdown 格式。
- 多源支持:既支持本地文件路径,也支持通过 URL 访问的远程 PDF 文件转换。
- 断点续传:支持增量转换,可从上次中断的位置继续进行转换。
- 灵活输出:输出目录可自定义配置。
- 高性能运行:基于 FastMCP 构建,具备出色的性能表现。
📦 安装指南
pip install pdf2md-mcp
💻 使用示例
基础用法
启动 MCP 服务器:
pdf2md-mcp
服务器启动后,将提供用于 PDF 转 Markdown 的 MCP 工具。
高级用法
convert_pdf_to_markdown
该工具使用人工智能采样功能,将 PDF 文件转换为 Markdown 格式。
参数说明:
file_path(字符串):PDF 文件的本地路径或 URL。output_dir(字符串,可选):Markdown 文件的输出目录。对于本地文件,默认与输入文件在同一目录;对于 URL 文件,默认是当前工作目录。
返回值:
output_file:生成的 Markdown 文件的路径。summary:转换任务的摘要。pages_processed:已处理的页面数量。
📚 详细文档
运行要求
- Python 3.10 及以上版本。
- 具备人工智能采样能力的 MCP 兼容客户端。
- 若使用基于 URL 的 PDF 文件,需具备网络访问权限。
开发相关
环境搭建
git clone https://github.com/shuminghuang/pdf2md-mcp.git
cd pdf2md-mcp
pip install -e ".[dev]"
运行测试
pytest
代码格式化
black .
isort .
📄 许可证
本项目采用 MIT 许可证,详情请参阅 LICENSE 文件。
🤝 贡献说明
欢迎大家为项目贡献力量!请随时提交拉取请求。
Scan to join WeChat group