PDF视觉阅读器 (pdf-vision-reader)
工作流程
用户发送PDF
↓
提取PDF页面为PNG图片(PyMuPDF, 2x缩放)
↓
分批次用视觉AI分析(每批4-5页)
↓
整合视觉分析结果
↓
可选后续处理:
- 整理为结构化摘要
- 提炼关键数据/要点
- 归档至 memory/ 目录
- 回答用户具体问题
使用场景
- 用户发来 PDF 需要分析理解
- 图片型/幻灯片型 PDF 无法用文字提取
- 扫描件 PDF 识别
- 需要理解 PDF 中的图表、数据、布局信息
输出格式
建议输出结构:
## PDF内容概览
[总页数] 页,主题:[...]
## 分页详解
### 第X页
[视觉AI返回的详细描述]
## 关键信息提炼
[数据/要点/结论]
## 相关知识
[如果已有相关背景知识,可关联补充]
注意事项
- PDF路径包含中文时,Python读取可能需处理编码
- 视觉分析每批4-5页,避免超出token限制
- 对于非常长的PDF(>50页),可先分析目录页+重点页面
- 分析完成后可询问用户是否需要归档到memory目录
扫码联系在线客服