README
🚀 PDF.co MCP
PDF.co MCP 服务器通过模型上下文协议(MCP)提供 PDF.co API 功能,使 AI 助手能够轻松执行各种 PDF 处理任务。
🚀 快速开始
PDF.co MCP 服务器借助模型上下文协议(MCP),为 AI 助手赋予强大的 PDF 处理能力。你可以通过一系列简单步骤,快速上手使用该服务器,开启高效的 PDF 处理之旅。
✨ 主要特性
📄 PDF 转换工具
- PDF → 多种格式:将 PDF 转换为 JSON、CSV、文本、Excel(XLS/XLSX)、XML、HTML、图像(JPG/PNG/WebP/TIFF)。
- 多种格式 → PDF:将文档(DOC/DOCX/RTF/TXT)、电子表格(CSV/XLS/XLSX)、图像、网页、HTML、电子邮件(MSG/EML)转换为 PDF。
- Excel 转换:将 Excel 文件转换为 CSV、JSON、HTML、TXT、XML、PDF。
🛠️ PDF 编辑与修改
- PDF 合并:将多个 PDF 文件合并为一个。
- PDF 拆分:按特定页面或页面范围拆分 PDF。
- 添加注释和图像:向 PDF 中添加文本、链接、图像、形状。
- 表单操作:读取 PDF 表单字段信息、填写表单、创建新的表单元素。
🔍 PDF 搜索与分析
- 文本搜索:在 PDF 中搜索文本(支持正则表达式)。
- 表格检测:查找 PDF 中表格的位置和坐标。
- AI 发票解析器:使用 AI 提取发票数据。
- PDF 信息:获取详细信息,包括元数据、页面数量、安全信息。
🔒 安全与可访问性
- 密码保护:为 PDF 添加/移除密码保护。
- 可搜索性:通过 OCR 使 PDF 可搜索或移除文本层。
- 附件提取:从 PDF 中提取附件。
💼 文件管理
- 文件上传:将本地文件上传到 PDF.co 服务器。
- 任务状态跟踪:监控异步操作的进度和结果。
⚙️ 配置
🔑 获取 API 密钥
- 在 PDF.co 网站 注册。
- 从仪表盘获取你的 API 密钥。
📦 安装 UV
要使用此 MCP 服务器,你需要安装 UV(一个快速的 Python 打包工具):
macOS 和 Linux
curl -LsSf https://astral.sh/uv/install.sh | sh
Windows
powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.ps1 | iex"
其他安装方法
- Homebrew:
brew install uv - 使用 pipx 从 PyPI 安装:
pipx install uv - 使用 pip 从 PyPI 安装:
pip install uv
更多安装选项和详细信息,请参阅 UV 安装指南。
MCP 服务器设置
Cursor IDE 配置
将以下内容添加到你的 .cursor/mcp.json 文件中:
{
"mcpServers": {
"pdfco": {
"command": "uvx",
"args": ["pdfco-mcp"],
"env": {
"X_API_KEY": "YOUR_API_KEY_HERE"
}
}
}
}
Claude Desktop 配置
将以下内容添加到你的 claude_desktop_config.json 文件中:
{
"mcpServers": {
"pdfco": {
"command": "uvx",
"args": ["pdfco-mcp"],
"env": {
"X_API_KEY": "YOUR_API_KEY_HERE"
}
}
}
}
🔧 可用工具
PDF 转换工具
pdf_to_json:将 PDF 和扫描图像转换为 JSON 表示,保留文本、字体、图像、矢量和格式。pdf_to_csv:将 PDF 和扫描图像转换为 CSV 表示,保留布局、列、行和表格。pdf_to_text:将 PDF 和扫描图像转换为文本,保留布局。pdf_to_xls:将 PDF 和扫描图像转换为 XLS(Excel 97 - 2003)格式。pdf_to_xlsx:将 PDF 和扫描图像转换为 XLSX(Excel 2007+)格式。pdf_to_xml:将 PDF 和扫描图像转换为 XML 格式。pdf_to_html:将 PDF 和扫描图像转换为 HTML 格式。pdf_to_image:将 PDF 和扫描图像转换为各种图像格式(JPG、PNG、WebP、TIFF)。
文档转 PDF 工具
document_to_pdf:将各种文档类型(DOC、DOCX、RTF、TXT、XLS、XLSX、CSV、HTML、JPG、PNG、TIFF、WEBP)转换为 PDF。csv_to_pdf:将 CSV 或电子表格文件(XLS、XLSX)转换为 PDF。image_to_pdf:将各种图像格式(JPG、PNG、TIFF)转换为 PDF。webpage_to_pdf:将外部网页 URL 转换为 PDF。html_to_pdf:将 HTML 转换为 PDF。email_to_pdf:将电子邮件转换为 PDF。
Excel 转换工具
excel_to_csv:将 Excel(XLS、XLSX)转换为 CSV。excel_to_json:将 Excel(XLS、XLSX)转换为 JSON。excel_to_html:将 Excel(XLS、XLSX)转换为 HTML。excel_to_txt:将 Excel(XLS、XLSX)转换为 TXT。excel_to_xml:将 Excel(XLS、XLSX)转换为 XML。excel_to_pdf:将 Excel(XLS、XLSX)转换为 PDF。
PDF 编辑工具
pdf_add_annotations_images_fields:添加文本、图像、表单、其他 PDF、填写表单、链接到外部网站和外部 PDF 文件。你可以更新或修改 PDF 和扫描的 PDF 文件。pdf_merge:将两个或多个 PDF、DOC、XLS、图像,甚至包含文档和图像的 ZIP 文件合并为一个新的 PDF。pdf_split:使用页面索引或页面范围将一个 PDF 拆分为多个 PDF 文件。
PDF 表单工具
read_pdf_forms_info:从输入的 PDF 文件中提取可填写 PDF 字段的信息。fill_pdf_forms:填写 PDF 文档中现有的表单字段。create_fillable_forms:在 PDF 文档中创建新的可填写表单元素。
PDF 搜索工具
find_text:在 PDF 中查找文本并获取坐标。支持正则表达式。find_table:在 PDF 中查找表格并获取其坐标。
PDF 分析工具
ai_invoice_parser:AI 发票解析器:使用 AI 从发票中提取数据。extract_attachments:从源 PDF 文件中提取附件。pdf_info_reader:获取 PDF 文档的详细信息 - 页数、元数据、安全性、表单字段等。
PDF 安全工具
pdf_add_password:为 PDF 文件添加密码保护。pdf_remove_password:移除 PDF 文件的密码保护。
PDF 可搜索性工具
pdf_make_searchable:将扫描的 PDF 文档或图像文件转换为可文本搜索的 PDF。运行 OCR 并添加可用于文本搜索的不可见文本层。pdf_make_unsearchable:通过移除文本层使现有的 PDF 文档不可搜索。
文件管理工具
upload_file:将文件上传到 PDF.co API。get_job_check:检查任务的状态和结果。状态可以是:正在处理、成功、失败、中止或未知。wait_job_completion:等待任务完成。
💻 使用示例
基础用法
将 PDF 转换为文本
Convert this PDF file to text: https://example.com/document.pdf
合并多个图像为 PDF
Create a PDF from these images: image1.jpg, image2.png, image3.jpg
在 PDF 中搜索特定文本
Find the word "contract" in this PDF document
填写 PDF 表单字段
Fill the name field in this PDF form with "John Doe"
将网页转换为 PDF
Convert https://example.com webpage to PDF
提取发票数据
Extract invoice information from this PDF using AI
添加密码保护
Add password protection to this PDF file
📖 详细文档
你可以通过以下链接获取更多详细信息:
- PDF.co:https://pdf.co
- PDF.co API 文档:https://developer.pdf.co
- 问题报告:请通过 GitHub Issues 报告问题。
📄 许可证
本项目根据 MIT 许可证进行分发。
⚠️ 重要提示
使用此工具需要有效的 PDF.co API 密钥。请在 PDF.co 创建免费账户以获取你的 API 密钥。
Scan to join WeChat group