返回 Skill 列表
extension
分类: 其它需要 API Key

PDF视觉阅读器

PDF视觉阅读器 — 将PDF转换为图片,通过AI视觉模型理解PDF内容。 当用户发送PDF文件或提供PDF路径,需要理解、分析、总结PDF内容时使用。 能力: - 将PDF每页渲染为高清PNG图片(PyMuPDF) - 使用AI视觉模型分析图片内容(中英文均可) - 支持幻灯片型、图片型、扫描件型PDF - 自...

person作者: itixobepafi130-ctrlhubclawhub

PDF视觉阅读器 (pdf-vision-reader)

工作流程

用户发送PDF
    ↓
提取PDF页面为PNG图片(PyMuPDF, 2x缩放)
    ↓
分批次用视觉AI分析(每批4-5页)
    ↓
整合视觉分析结果
    ↓
可选后续处理:
  - 整理为结构化摘要
  - 提炼关键数据/要点
  - 归档至 memory/ 目录
  - 回答用户具体问题

使用场景

  • 用户发来 PDF 需要分析理解
  • 图片型/幻灯片型 PDF 无法用文字提取
  • 扫描件 PDF 识别
  • 需要理解 PDF 中的图表、数据、布局信息

输出格式

建议输出结构:

## PDF内容概览
[总页数] 页,主题:[...]

## 分页详解
### 第X页
[视觉AI返回的详细描述]

## 关键信息提炼
[数据/要点/结论]

## 相关知识
[如果已有相关背景知识,可关联补充]

注意事项

  • PDF路径包含中文时,Python读取可能需处理编码
  • 视觉分析每批4-5页,避免超出token限制
  • 对于非常长的PDF(>50页),可先分析目录页+重点页面
  • 分析完成后可询问用户是否需要归档到memory目录