ga_vision Skill

视觉理解 Skill，支持文字识别和图片理解，自动按优先级调度后端。

前置依赖

| 依赖 | 说明 | 安装方式 | |------|------|---------| | rapidocr_onnxruntime | 必须，纯文字识别 | pip install rapidocr_onnxruntime | | mmx CLI | 推荐，需 Token Plan 订阅 | npm install -g mmx-cli | | vision_api | 备用，需魔搭 API Key | 见下方配置说明 |

魔搭(ModelScope) API Key 配置

获取地址：https://modelscope.cn → 右上角头像 → API-KEY

# 方式1: 环境变量
export MODELSCOPE_API_KEY="your_token_here"

# 方式2: 创建配置
mkdir -p ~/.modelscope_env
echo "your_token_here" > ~/.modelscope_env/MODELSCOPE_TOKEN

优先级（自动调度）

| 优先级 | 后端 | 条件 | |--------|------|------| | 1 | RapidOCR | pip install 后立即可用 | | 2 | mmx MiniMax | npm install + Token Plan 订阅 | | 3 | vision_api | 魔搭 API Key |

使用方法

import sys
sys.path.insert(0, '/path/to/skills/ga_vision')
from ga_vision import ask_vision, ocr_image

# 文字识别（RapidOCR，最快）
text = ocr_image('/path/to/img.png')

# 图片理解（自动选最优后端）
result = ask_vision('/path/to/img.png', '描述图片内容')

API

`ocr_image(image_path: str) -> str`

纯文字识别，返回识别到的文本内容。

`ask_vision(image_path: str, prompt: str = "描述图片内容") -> str`

统一视觉理解入口，自动按优先级调度后端，返回理解结果。