PDF 转 Markdown Skill (v1.1)
将 PDF 文件(含扫描件、图片)转换为 Markdown 格式,支持 OCR 识别。
核心功能
| 功能 | 说明 | |------|------| | PDF 转 Markdown | 支持扫描件、图片PDF的文字识别 | | 公式识别 | 数学公式转为 LaTeX | | 表格识别 | 表格重建为 Markdown 表格 | | 多语言 | 109 种语言 OCR 识别 | | 双引擎 | MinerU (主) + PaddleOCR (备) | | 兼容本地 | 兼容系统自带 OCR 和之前技能 |
Token 申请
1. MinerU Token
申请地址:https://mineru.net/apiManage/token
申请步骤:
- 打开 https://mineru.net 注册账号
- 进入「API管理」→「Token管理」
- 点击「创建新Token」
- 复制 Token 并妥善保存
使用方式:
# 设置环境变量
$env:MINERU_API_KEY = "你的Token"
# 或在脚本中传入
from magic_pdf import MagicPDF
md = MagicPDF(api_key="你的Token")
2. PaddleOCR Token
申请地址:
- 主入口:https://aistudio.baidu.com/paddleocr
- Token管理:https://aistudio.baidu.com/account/accessToken
申请步骤:
- 打开 https://aistudio.baidu.com 注册/登录百度账号
- 进入「个人中心」→「AccessToken管理」
- 点击「创建令牌」或复制现有 Token
- 勾选「使用PaddleOcr令牌」
使用方式:
# 设置环境变量
$env:PADDLEOCR_ACCESS_TOKEN = "你的Token"
# 或在脚本中传入
from aistudio import AccessToken
token = AccessToken(access_token="你的Token")
接入引擎
1. MinerU
两种使用方式:
方式 A:本地部署(免费,无需 Token)
pip install magic-pdf[full]
- 完全离线可用
- 首次运行下载模型(约 2GB)
- 推荐配置:8GB+ 内存
方式 B:云端 API(需要 Token)
pip install magic-pdf[full]
# 设置Token后自动使用云端
$env:MINERU_API_KEY = "你的Token"
2. PaddleOCR
两种使用方式:
方式 A:本地部署(免费,无需 Token)
pip install paddleocr paddlepaddle pymupdf
- 完全离线可用
- 首次运行下载模型(约 300MB)
- 适合中英文纯文字识别
方式 B:在线 API(需要 Token)
pip install paddleseg aistudio
$env:PADDLEOCR_ACCESS_TOKEN = "你的Token"
3. 兼容本地 OCR(无 Token)
兼容以下本地识别方式:
| 引擎 | 安装 | Token |
|------|------|-------|
| Windows自带 | Get-WindowsCapability -Online -Name *OCR* | ❌ 无需 |
| macOS自带 | 预装 | ❌ 无需 |
| tesseract | pip install pytesseract | ❌ 无需 |
| 之前技能 | 沿用原配置 | ❌ 无需 |
环境要求
- Python 3.10+
- 需要网络下载模型(首次使用,可离线后续)
- 推荐 8GB+ 内存,GPU 可选(加速)
实现脚本
1. MinerU 封装 (scripts/mineru_parser.py)
import os
from magic_pdf import MagicPDF
# 方式一:本地模式(默认)
md = MagicPDF(mode="local")
# 方式二:API模式(自动检测Token)
api_key = os.environ.get("MINERU_API_KEY", "")
if api_key:
md = MagicPDF(mode="api", api_key=api_key)
else:
md = MagicPDF(mode="local")
result = md.parse("document.pdf", lang="zh_en")
print(result.content)
2. PaddleOCR 封装 (scripts/paddleocr_parser.py)
import os
from paddleocr import PaddleOCR
import fitz
def ocr_local(file_path: str, lang: str = "ch"):
"""本地 OCR"""
ocr = PaddleOCR(use_angle_cls=True, lang=lang, show_log=False)
return ocr.ocr(file_path, cls=True)
def ocr_api(file_path: str, access_token: str):
"""API OCR"""
from aistudio import AccessToken
# 使用云端API
pass
3. 自动选引擎 (scripts/auto_convert.py)
def detect_and_convert(input_path, output_path=None, engine="auto"):
"""自动检测可用引擎并转换"""
engines = []
# 优先检测Token是否存在
if os.environ.get("MINERU_API_KEY"):
engines.append("mineru-api")
else:
try:
from magic_pdf import MagicPDF
engines.append("mineru-local")
except: pass
if os.environ.get("PADDLEOCR_ACCESS_TOKEN"):
engines.append("paddleocr-api")
else:
try:
from paddleocr import PaddleOCR
engines.append("paddleocr-local")
except: pass
# 兼容之前技能
try:
import pytesseract
engines.append("tesseract")
except: pass
# 自动选(优先API)
if engine == "auto":
# 优先选API模式的引擎
for e in engines:
if "-api" in e:
engine = e
break
else:
engine = engines[0] if engines else None
# 执行转换...
使用方法
快速开始
# 1. 本地模式(推荐首次试用)
pip install magic-pdf[full]
python scripts/mineru_parser.py -i document.pdf -o result.md
# 2. 使用 API 模式
$env:MINERU_API_KEY = "你的Token"
python scripts/auto_convert.py -i document.pdf -o result.md -e mineru-api
# 3. 自动选择
python scripts/auto_convert.py -i document.pdf -o result.md
带 Token 调用
# MinerU API 模式
from magic_pdf import MagicPDF
md = MagicPDF(api_key="你的MINERU_TOKEN")
result = md.parse("test.pdf")
print(result.content)
# PaddleOCR API 模式
from aistudio import AccessToken
token = AccessToken(access_token="你的PADDLEOCR_TOKEN")
安装依赖
本地模式(免费)
# MinerU 本地
pip install magic-pdf[full]
# PaddleOCR 本地
pip install paddleocr paddlepaddle pymupdf
API 模式(需要 Token)
# MinerU API
pip install magic-pdf[full] # 本地包即可,用环境变量指定Token
# PaddleOCR API
pip install aistudio
额度限制
| 引擎 | 每日限额 | 单文件上限 | |------|---------|-------------| | MinerU | 5000页/天 | 优先解析 ≤1000页 | | PaddleOCR | 20000页/天 | - |
注:超过单文件上限时自动分片处理
推荐方案
推荐优先使用云端 API(本地OCR较慢,云端效果更好):
| 场景 | 推荐引擎 | 理由 | |------|----------|------| | 新手试用 | MinerU 本地 | 免费,先熟悉流程 | | 追求效果 | MinerU API | 表格/公式/多栏最强 | | 追求速度 | PaddleOCR API | 速度快,适合大批量 | | 大批量 | PaddleOCR API | 20000页/天额度 | | 复杂文档 | MinerU API | VLM+OCR双引擎 |
自动切换策略:
- 检测到 Token 时自动使用云端 API
- 本地模式作为 fallback(无 Token 时备选)
- 超额自动切换到另一引擎
推荐配置:
- 首次使用 → 本地版测试流程
- 正式使用 → 申请 Token 接入云端
- 大批量 → 使用 PaddleOCR(额度更高)
版本历史
| 版本 | 日期 | 更新 | |------|------|------| | 1.0 | 2026-05-29 | 初始版本 | | 1.1 | 2026-05-29 | 新增 Token 申请链接,兼容本地 OCR,添加额度限制和推荐方案 |
微信扫一扫