Back to skills
extension
Category: Development & EngineeringNo API key required

GenericAgent读取图片

GenericAgent读取图片: 视觉理解能力,支持文字识别和图片理解,自动按优先级调度后端。

personAuthor: hallo128hubModelScope

ga_vision Skill

视觉理解 Skill,支持文字识别和图片理解,自动按优先级调度后端。

前置依赖

| 依赖 | 说明 | 安装方式 | |------|------|---------| | rapidocr_onnxruntime | 必须,纯文字识别 | pip install rapidocr_onnxruntime | | mmx CLI | 推荐,需 Token Plan 订阅 | npm install -g mmx-cli | | vision_api | 备用,需魔搭 API Key | 见下方配置说明 |

魔搭(ModelScope) API Key 配置

获取地址:https://modelscope.cn → 右上角头像 → API-KEY

# 方式1: 环境变量
export MODELSCOPE_API_KEY="your_token_here"

# 方式2: 创建配置
mkdir -p ~/.modelscope_env
echo "your_token_here" > ~/.modelscope_env/MODELSCOPE_TOKEN

优先级(自动调度)

| 优先级 | 后端 | 条件 | |--------|------|------| | 1 | RapidOCR | pip install 后立即可用 | | 2 | mmx MiniMax | npm install + Token Plan 订阅 | | 3 | vision_api | 魔搭 API Key |

使用方法

import sys
sys.path.insert(0, '/path/to/skills/ga_vision')
from ga_vision import ask_vision, ocr_image

# 文字识别(RapidOCR,最快)
text = ocr_image('/path/to/img.png')

# 图片理解(自动选最优后端)
result = ask_vision('/path/to/img.png', '描述图片内容')

API

ocr_image(image_path: str) -> str

纯文字识别,返回识别到的文本内容。

ask_vision(image_path: str, prompt: str = "描述图片内容") -> str

统一视觉理解入口,自动按优先级调度后端,返回理解结果。