jiema-gpt-image

这是一个通用生图工具，用于通过 OpenAI-compatible Images API 调用 Jiema GPT Image 服务生成图片。

默认服务：

Base URL: https://gpt.justnow.uk/v1
Endpoint: /images/generations
Model: gpt-image-2

适用场景

当用户提出任何生图、配图、视觉素材生成需求时使用该 skill，例如：

“帮我生成一张图”
“生成一张插画/海报/封面/配图”
“做一张产品概念图”
“生成社交媒体图片”
“根据这段文字生成视觉图”
“用 gpt-image-2 生图”
“调用 gpt.justnow.uk 的生图接口”

该 skill 只负责生成新图片。若用户只需要裁剪、压缩、改格式、去背景、尺寸调整等后处理，优先使用图像处理工具；如果生成后还需要后处理，可以在生图完成后再接续调用对应工具。

输入信息

生成前尽量从用户请求中推断这些信息，只有缺失内容会影响结果时才追问：

prompt：图片内容、主体、风格、用途。
size：图片尺寸。通用默认值为 1024x1024。
n：生成数量。默认 1。
output_dir：保存目录。默认当前工作目录或任务相关目录。
filename：文件名。默认从主题生成 slug 并附加时间戳。
可选约束：
- 平台或用途，例如头像、横幅、海报、文章配图、商品图、社交媒体图片；
- 横版、竖版、方图等比例要求；
- 是否需要画面文字，以及准确文字内容；
- 不希望出现的元素，例如二维码、真实品牌 logo、人物、杂乱小字；
- 品牌色、视觉风格、参考媒介、受众或情绪。

如果用户只给出简单需求，不要直接把原句丢给模型。先扩展成专业生图 prompt，包含用途、主体、构图、风格、文字要求、负面约束和质量要求。只有在缺失信息会导致明显错误时才追问。

如果用户已经给出足够信息，直接执行。

API key 规则

不要把 API key 写入 SKILL.md、脚本、生成 prompt 或共享产物。
如果用户第一次使用该 skill，且当前没有可用的 API key，引导用户到这里注册并获取 API key：

https://gpt.justnow.uk

优先使用环境变量：

export JIEMA_GPT_IMAGE_API_KEY='YOUR_KEY_HERE'

如果用户在对话中提供 API key，只能用于当前执行上下文，并提醒用户如果 key 已暴露且敏感，应考虑轮换。
最终回复、文件名、Markdown 文档、日志摘要中都不要包含 API key。
原始 API 响应可能包含大量 base64 数据，除非必要，不要保存或分享。

Prompt 设计

高质量生成时，根据需求选择是否参考 references/style-library.md 中的类型、风格和场景标签。需要更细的 prompt 模式时，可参考：

references/templates.md：工业化 prompt 模板和常见问题。
references/gallery-part-1.md：案例 1-165。
references/gallery-part-2.md：案例 166-409。

这些参考只作为风格和结构启发，不要机械复制。如果用户需求很模糊，并且有多种明显不同的方向，可以给出 2-3 个方向让用户选择；否则直接采用合理默认值。

通用 prompt 应覆盖：

用途和画幅：
- 头像、海报、配图、横幅、商品图、概念图、文章封面等；
- 方图、横版、竖版、宽屏等。
主要主体：
- 人物、物体、产品、场景、界面、抽象概念或符号。
构图：
- 主体位置、视线引导、前景/背景、留白、安全边距。
视觉风格：
- 写实、摄影、3D、插画、极简、电影感、科技感、手绘、编辑视觉等。
文字要求：
- 如需文字，给出准确短文本；
- 如果文字准确性很关键，建议先生成无字背景，再用图像处理工具加字。
负面要求：
- 不要二维码；
- 不要未经授权的真实品牌 logo；
- 不要小而不可读的文字；
- 不要混乱布局；
- 不要用户未要求的人物或敏感元素。
质量要求：
- 高清、清晰主体、干净画面、适合指定用途。

工作流

理解用户目标和图片用途。
必要时参考 references/style-library.md、references/templates.md 或 gallery 示例，选择合适风格和 prompt 结构。
如果请求简短或模糊，先扩展成标准 prompt；如果方向差异很大，再请用户选择方向。
选择尺寸、数量和保存目录。
确认 API key 可用；首次无 key 时，引导用户到 https://gpt.justnow.uk 注册获取。
调用生成 API。
解码返回的 b64_json，或下载返回的 url。
保存图片文件，文件名要清晰。
用 file 和 ls -lh 验证文件存在和基本类型。
如果有视觉检查工具，可查看图片是否符合主体、构图和文字要求。
回复保存路径、图片尺寸/文件信息，以及必要的使用说明。

简单需求扩展

当用户只说“生成一张图，主题是 AI 写作”这类简单需求时，先转换成结构化 prompt。

通用结构：

生成一张{画幅/比例}的{图片类型}，用途是{用途或平台}。
主题：{用户需求提炼后的主题}。
核心表达：{图片要传达的价值、情绪或结论}。
画面主体：{主要物体/场景/人物/界面/符号}。
构图：{主体位置、前景/背景、留白、安全边距、视线引导}。
视觉风格：{设计风格、媒介、色彩、光影、材质、质感}。
文字要求：{如需要文字，列出准确文字；如不适合生成文字，说明不要文字}。
负面要求：不要二维码、不要未经授权的真实品牌 logo、不要杂乱小字、不要错误文字、不要低清晰度。
质量要求：高清、主体清晰、画面干净，适合{用途}直接使用。

默认判断：

用户未指定用途：按通用方图处理，使用 1024x1024。
用户说“头像”：使用 1024x1024，主体居中，避免小文字。
用户说“海报/竖版图/手机壁纸/小红书”：优先使用 1024x1536。
用户说“横幅/头图/文章配图/公众号首图”：优先使用 1536x1024 或更宽比例。
用户要求图片中文字：尽量保持短句，优先主标题 + 副标题。
用户对文字准确性要求高：建议生成无字背景，再用图像处理工具添加排版文字。

示例扩展：

用户请求：

帮我生成一张 AI 写作工具的宣传图

标准 prompt：

生成一张横版宣传图，用途是产品介绍和社交媒体展示。
主题：AI 写作工具。
核心表达：用 AI 提升写作效率，从灵感、草稿到发布形成流畅工作流。
画面主体：一台笔记本电脑打开智能写作界面，屏幕中有文章段落、灵感卡片和发光的 AI 节点；周围点缀文档、键盘、流动光线和知识网络元素。
构图：主体位于画面中间偏左，右侧预留标题区域，背景简洁，有轻微景深，四周留安全边距。
视觉风格：现代科技感、干净高级、柔和发光、商业 SaaS 视觉。
文字要求：主标题「AI 写作工具」，副标题「从灵感到成稿，一站式提效」。文字清晰、简短、不要变形。
负面要求：不要二维码、不要未经授权的真实品牌 logo、不要人物照片、不要杂乱小字、不要错误中文、不要低清晰度。
质量要求：高清、主体清晰、画面干净，适合产品宣传直接使用。

命令模式

优先使用该 skill 目录中的辅助脚本。

python3 ~/.skills-manager/skills/jiema-gpt-image/scripts/generate_image.py \
  --prompt "一张现代科技风格的 AI 写作工具宣传图，主体是智能写作界面和知识网络元素" \
  --output-dir ./generated-images \
  --filename ai-writing-promo.png \
  --size 1024x1024 \
  --n 1

如果直接使用 curl：

curl -sS "${JIEMA_GPT_IMAGE_BASE_URL:-https://gpt.justnow.uk/v1}/images/generations" \
  -H "Authorization: Bearer ${JIEMA_GPT_IMAGE_API_KEY}" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-image-2",
    "prompt": "...",
    "size": "1024x1024",
    "n": 1
  }'

输出处理

API 可能返回以下格式：

Base64 图片：

{"data": [{"b64_json": "..."}]}

解码为 .png。

图片 URL：

{"data": [{"url": "https://..."}]}

下载到输出路径。

多张图片使用后缀命名：

image.png
image-2.png
image-3.png

失败处理

如果生成失败：

检查 API key 是否存在：

test -n "$JIEMA_GPT_IMAGE_API_KEY" && echo ok

如果没有 API key，并且用户是第一次使用，引导用户到这里注册获取：

https://gpt.justnow.uk

检查 base URL：

echo "${JIEMA_GPT_IMAGE_BASE_URL:-https://gpt.justnow.uk/v1}"

如果是 HTTP 错误，保存并摘要响应体，但不要暴露密钥。
如果尺寸不支持，改用 1024x1024、1536x1024 或 1024x1536 重试。
如果中文文字乱码或不准确，重试时：
- 减少文字；
- 放大标题区域；
- 只保留短标题；
- 或生成无字背景，再用图像处理工具加字。
如果风格不理想，加强 prompt 中的主体、构图、色彩、参考媒介、负面约束和用途描述。

gpt Image 2 图片生成工具