PDF带格式精确转换成Word (PDF to Word with Format)
概述
本 skill 提供高精度PDF转Word转换服务,最大程度保留原始文档的所有格式信息。
核心功能
-
精确字体映射
- 智能识别PDF字体名称
- 映射到Word可用中英文字体
- 支持:宋体、黑体、楷体、仿宋_GB2312、Times New Roman、Arial等
-
字号精确转换
- 精确保留原始字号(pt)
- 标题22pt、二号16pt、三号14pt等
-
段落格式保留
- 行间距:1.5倍行距
- 首行缩进:2字符(0.74cm)
- 段前段后间距
-
文本对齐
- 左对齐、居中、右对齐、两端对齐
-
文本格式
- 粗体(Bold)
- 斜体(Italic)
- 下划线(Underline)
- 文本颜色
-
表格支持
- 完整表格结构
- 单元格内容
-
图片支持
- 提取并保留图片位置
- 自动调整图片大小
使用方式
基本转换
python convert.py <输入PDF> --output <输出Word>
批量转换
python convert.py <PDF文件夹> --batch --output <输出文件夹>
转换指定页面
python convert.py 文档.pdf --pages 0-5 --output 文档.docx
依赖安装
首次使用需安装依赖:
pip install pymupdf python-docx
示例
# 基本转换
python convert.py 报告.pdf --output 报告.docx
# 批量转换文件夹中所有PDF
python convert.py ./pdfs/ --batch --output ./words/
# 转换前10页
python convert.py 文档.pdf --pages 0-9 --output 文档.docx
# 指定起始页和结束页
python convert.py 长文档.pdf --start 5 --end 15 --output 部分.docx
输出说明
- 输出文件为
.docx格式,可用 Microsoft Word 或 WPS 打开 - 转换后的文档保留了大部分原始格式
- 特殊布局的PDF转换效果可能略有差异
技术原理
本 skill 基于以下技术实现:
- PyMuPDF (fitz) - 提取PDF内容和格式信息
- python-docx - 构建Word文档
提取的格式信息包括:
- 字体名称、字号
- 文本对齐方式
- 粗体、斜体、下划线标志
- 文本颜色(RGB)
- 段落位置坐标
字体映射表
| PDF字体 | Word字体 | |--------|---------| | 宋体, SimSun | 宋体 | | 黑体, SimHei | 黑体 | | 楷体, SimKai | 楷体_GB2312 | | 仿宋, SimFang | 仿宋_GB2312 | | Times New Roman | Times New Roman | | Arial, Helvetica | Arial | | 微软雅黑, Microsoft YaHei | 微软雅黑 |
Scan to join WeChat group