返回 Skill 列表
extension
分类: 其它无需 API Key

精简PDF处理工具包

一款轻量高效的 PDF 处理工具,集成文本提取、PDF 合并、PDF 拆分、水印添加、文件信息查询、OCR 图文识别、扫描版 PDF 转文字、PDF 转 Word、PDF 转图片、PDF 转 HTML、PDF 转 TXT、PDF 转 Markdown、多张图片合成 PDF、Word 转 PDF、页面旋转、删除页码、提取页面、插入页面、替换页面、页面反转、页眉页脚、自动页码、图片提取、表格提取、书签提取、批注提取、PDF 加密、PDF 解密、文件压缩、文档修复、批量处理、批量转 Word、批量转图片、批量 Word 转 PDF 等全功能,满足办公自动化、格式转换、文档整理、扫描件处理等高频场景需求,简洁高效

person作者: user_05cc33a7hubcommunity

📄 PDF 终极全能处理 Skill

一站式 PDF 解决方案:转换、编辑、OCR、加密解密、水印、页眉页脚、批量处理


🤖 Agent 执行指令

执行本技能后,代理必须:

1. 理解用户需求

  • 识别 PDF 处理意图(转换/编辑/提取/加密/批量等)
  • 解析关键参数(文件路径、输出路径、操作选项)

2. 执行命令示例

# 基础操作
python pdf_fast_handler_skill.py info input.pdf
python pdf_fast_handler_skill.py extract input.pdf
python pdf_fast_handler_skill.py merge file1.pdf file2.pdf -o merged.pdf

# 格式转换
python pdf_fast_handler_skill.py to-word input.pdf -o output.docx
python pdf_fast_handler_skill.py to-image input.pdf -o ./images
python pdf_fast_handler_skill.py to-txt input.pdf -o output.txt
python pdf_fast_handler_skill.py to-md input.pdf -o output.md

# 页面编辑
python pdf_fast_handler_skill.py rotate input.pdf 90 -o rotated.pdf
python pdf_fast_handler_skill.py delete-pages input.pdf 1,3,5 -o output.pdf
python pdf_fast_handler_skill.py extract-pages input.pdf 1,2,3 -o output.pdf

# 安全操作
python pdf_fast_handler_skill.py encrypt input.pdf -p 123456 -o encrypted.pdf
python pdf_fast_handler_skill.py decrypt input.pdf -p 123456 -o decrypted.pdf

# 图片/Word 互转
python pdf_fast_handler_skill.py images2pdf img1.jpg img2.jpg -o output.pdf
python pdf_fast_handler_skill.py word2pdf input.docx -o output.pdf

# 批量处理
python pdf_fast_handler_skill.py batch ./pdf_folder to-word

3. 依赖安装(脚本会自动检测并提示)

pip install PyPDF2 pdf2image pillow pytesseract pdf2docx docx2pdf

注意:Windows 下还需安装:


📋 支持的命令

| 命令 | 说明 | 示例 | |------|------|------| | info | PDF 信息(页数、大小、加密状态) | info input.pdf | | extract | 提取文本 | extract input.pdf | | merge | 合并多个 PDF | merge f1.pdf f2.pdf -o out.pdf | | split | 拆分 PDF | split input.pdf 3 | | watermark | 添加文字水印 | watermark input.pdf "机密" -o out.pdf | | to-word | 转 Word | to-word input.pdf -o out.docx | | to-image | 转图片 | to-image input.pdf -o ./folder | | to-html | 转 HTML | to-html input.pdf -o out.html | | to-txt | 转 TXT | to-txt input.pdf -o out.txt | | to-md | 转 Markdown | to-md input.pdf -o out.md | | ocr | OCR 识别(扫描件转文字) | ocr input.pdf -o text.txt | | encrypt | 加密 PDF | encrypt input.pdf -p 123456 | | decrypt | 解密 PDF | decrypt input.pdf -p 123456 | | rotate | 旋转页面 | rotate input.pdf 90 | | delete-pages | 删除页 | delete-pages input.pdf 1,3,5 | | extract-pages | 提取页 | extract-pages input.pdf 1,2 | | insert-page | 插入 PDF | insert-page input.pdf 2 insert.pdf | | replace-page | 替换页 | replace-page input.pdf 3 new.pdf | | add-header | 添加页眉 | add-header input.pdf "公司名称" | | add-footer | 添加页脚 | add-footer input.pdf "第几页" | | add-page-num | 添加页码 | add-page-num input.pdf | | extract-images | 提取图片 | extract-images input.pdf -o ./imgs | | extract-bookmarks | 提取书签 | extract-bookmarks input.pdf | | reverse-pages | 反转页面顺序 | reverse-pages input.pdf | | compress | 压缩 PDF | compress input.pdf high | | repair | 修复损坏 PDF | repair input.pdf | | images2pdf | 图片转 PDF | images2pdf a.jpg b.jpg -o out.pdf | | word2pdf | Word 转 PDF | word2pdf input.docx | | batch | 批量处理 | batch ./folder to-word |


🐛 故障排查

问题:poppler 或 tesseract 找不到

  • Windows:下载安装后添加到 PATH,或指定完整路径
  • Linuxsudo apt install poppler-utils tesseract-ocr
  • Macbrew install poppler tesseract

问题:pip 安装失败

  • 确保 Python 3.8+
  • 尝试:pip install --upgrade pip

📝 更新日志

  • v1.0.0:初始版本,支持完整 PDF 处理功能