PDF Vision Reader

図表が多い PDF を画像化して、Claude の vision 機能で内容を解析・Markdown 化するスキルです。

クイックスタート

基本的な使い方

# 1. PDF を画像に変換
wsl python3 scripts/pdf_to_images.py "/mnt/c/path/to/file.pdf"

# 2. 各画像を Read ツールで読み込んで解析
# 3. Markdown 形式でまとめる

前提条件

必要なパッケージ：

# Python パッケージ
wsl pip3 install pdf2image Pillow

# システムパッケージ (poppler)
wsl sudo apt-get update
wsl sudo apt-get install -y poppler-utils

ワークフロー

ステップ1: PDF を画像に変換

wsl python3 scripts/pdf_to_images.py "/mnt/c/path/to/document.pdf"

これにより document_pages/ ディレクトリが作成され、各ページが画像として保存されます：

page_001.png
page_002.png
page_003.png
...

ステップ2: 各画像を解析

Read ツールで各画像を順番に読み込み、内容を解析します。

解析時の指示例:

この画像の内容を詳しく説明してください：
- タイトルや見出し
- 本文テキスト
- 図表の説明
- グラフやチャートのデータ
- 重要なポイント

ステップ3: Markdown に統合

各ページの解析結果を統合して、一つの Markdown ファイルを作成します。

使用例

例1: プレゼンテーション資料を Markdown 化

User: "presentation.pdf を vision で解析して Markdown 化して"
Assistant:
1. scripts/pdf_to_images.py で PDF を画像に変換
2. 各画像を Read ツールで読み込み
3. 各ページの内容を解析（タイトル、図表、テキスト）
4. 全ページの解析結果を統合
5. Write ツールで Markdown ファイルに保存

例2: 特定のページのみ解析

User: "document.pdf の 5-10 ページだけ解析して"
Assistant:
1. PDF を画像に変換（全ページ）
2. page_005.png から page_010.png のみ Read で読み込み
3. 該当ページの内容を Markdown 化

解析の観点

自動的に抽出する情報

各ページの画像から以下を抽出：

テキスト情報
- タイトル・見出し
- 本文テキスト
- 箇条書きリスト
- 注釈・キャプション
図表
- 図の種類（フローチャート、組織図、etc.）
- 図の説明・要約
- 主要な要素と関係性
グラフ・チャート
- グラフの種類（棒グラフ、円グラフ、etc.）
- 軸ラベル
- 主要なデータポイント
- トレンドや傾向
テーブル
- テーブルの構造
- ヘッダー行
- データの内容
- Markdown テーブル形式に変換
レイアウト・構造
- ページ全体のレイアウト
- セクション分け
- 強調されている情報

Markdown 出力フォーマット

# [PDFタイトル]

**解析日時:** YYYY-MM-DD
**総ページ数:** N

---

## Page 1: [ページタイトル]

### 概要
[ページの概要説明]

### 主要な内容
- [ポイント1]
- [ポイント2]

### 図表
**図1: [図のタイトル]**
[図の説明]

### テキスト内容
[ページ内のテキスト]

---

## Page 2: [ページタイトル]
...

スクリプト詳細

pdf_to_images.py

機能:

PDF の各ページを PNG 画像に変換
解像度指定可能（デフォルト: 200 DPI）
出力ディレクトリの自動作成

使い方:

python scripts/pdf_to_images.py <pdf_path> [output_dir] [dpi]

# 例
python scripts/pdf_to_images.py document.pdf ./images 300

出力:

[pdf_name]_pages/page_001.png
[pdf_name]_pages/page_002.png
...

対応可能なコンテンツ

✅ テキスト（日本語・英語）
✅ 図表・ダイアグラム
✅ グラフ・チャート
✅ テーブル
✅ スクリーンショット
✅ インフォグラフィック
✅ 複雑なレイアウト
⚠️ 手書きメモ（精度は状況による）
⚠️ 低解像度画像（精度低下の可能性）

テキスト抽出との違い

pdf-reader (テキスト抽出)

✅ テキストのみの PDF で高速
✅ 純粋なテキスト抽出
❌ 図表は抽出不可
❌ レイアウトは簡略化

pdf-vision-reader (画像解析)

✅ 図表・グラフを理解
✅ 複雑なレイアウトを保持
✅ ビジュアル要素の説明
⚠️ 処理時間が長い
⚠️ API コスト（画像解析）

推奨される使い分け

| PDF の種類 | 推奨スキル | |-----------|----------| | テキスト中心の文書 | pdf-reader | | プレゼンテーション資料 | pdf-vision-reader | | 図表・グラフが多い資料 | pdf-vision-reader | | 技術図面・設計書 | pdf-vision-reader | | 論文（図表含む） | pdf-vision-reader | | 単純なテキストPDF | pdf-reader |

トラブルシューティング

pdf2image が見つからない

wsl pip3 install pdf2image

poppler-utils が見つからない

wsl sudo apt-get update
wsl sudo apt-get install -y poppler-utils

画像変換が失敗する

PDF が破損していないか確認
ディスク容量を確認
メモリ不足の可能性（大きな PDF は分割処理）

解析精度が低い

DPI を上げる（300 推奨）

python scripts/pdf_to_images.py document.pdf ./images 300

元の PDF の画質を確認

パフォーマンス

処理時間の目安

| ページ数 | 画像変換 | 解析（Claude vision） | 合計 | |---------|---------|---------------------|------| | 10ページ | 5秒 | 30-60秒 | ~1分 | | 30ページ | 15秒 | 90-180秒 | ~3分 | | 100ページ | 50秒 | 300-600秒 | ~10分 |

最適化のヒント

必要なページのみ処理
- 全ページ変換後、重要なページのみ解析
DPI の調整
- 図表が多い: 300 DPI
- テキスト中心: 150-200 DPI
バッチ処理
- 複数 PDF を並行処理しない（順次処理）

パス変換

Windows パスから WSL パスへの変換：

C:\Users\... → /mnt/c/Users/...
D:\Projects\... → /mnt/d/Projects/...

バージョン履歴

v1.0.0 (2026-01-06): 初期リリース
- PDF → 画像変換機能
- Vision ベースの解析ワークフロー
- 図表・グラフの理解対応
- Markdown 出力フォーマット