ga_vision Skill
视觉理解 Skill,支持文字识别和图片理解,自动按优先级调度后端。
前置依赖
| 依赖 | 说明 | 安装方式 |
|------|------|---------|
| rapidocr_onnxruntime | 必须,纯文字识别 | pip install rapidocr_onnxruntime |
| mmx CLI | 推荐,需 Token Plan 订阅 | npm install -g mmx-cli |
| vision_api | 备用,需魔搭 API Key | 见下方配置说明 |
魔搭(ModelScope) API Key 配置
获取地址:https://modelscope.cn → 右上角头像 → API-KEY
# 方式1: 环境变量
export MODELSCOPE_API_KEY="your_token_here"
# 方式2: 创建配置
mkdir -p ~/.modelscope_env
echo "your_token_here" > ~/.modelscope_env/MODELSCOPE_TOKEN
优先级(自动调度)
| 优先级 | 后端 | 条件 | |--------|------|------| | 1 | RapidOCR | pip install 后立即可用 | | 2 | mmx MiniMax | npm install + Token Plan 订阅 | | 3 | vision_api | 魔搭 API Key |
使用方法
import sys
sys.path.insert(0, '/path/to/skills/ga_vision')
from ga_vision import ask_vision, ocr_image
# 文字识别(RapidOCR,最快)
text = ocr_image('/path/to/img.png')
# 图片理解(自动选最优后端)
result = ask_vision('/path/to/img.png', '描述图片内容')
API
ocr_image(image_path: str) -> str
纯文字识别,返回识别到的文本内容。
ask_vision(image_path: str, prompt: str = "描述图片内容") -> str
统一视觉理解入口,自动按优先级调度后端,返回理解结果。
Scan to contact