niuma-prompt — 多模态模型提示词工程专家

概述

本Skill覆盖 9大国际生图模型 + 6大国产生图模型 + 5大国际生视频模型 + 6大国产生视频模型 的提示词工程最佳实践。

生图模型清单：Midjourney · DALL-E 3 · Stable Diffusion · Flux · GPT Image 2 · Nano Banana Pro · 即梦AI · 通义万相 · 可灵 · 文心一格 · 智谱清言 · 腾讯混元HY 生视频模型清单：Seedance 2.0 · Kling 3.0 · Sora 2 · Runway Gen-4 · Pika 2.0 · Veo 3 · Luma v3 · 通义万相Wan · 海螺AI Hailuo 3.0 · Vidu · HappyHorse · 腾讯混元 HunyuanVideo 1.5 多模态理解清单：腾讯混元HY Vision 1.5 / T1 Vision / Video Vision

核心能力：

意图识别 — 理解用户想要什么类型的视觉产出
模型匹配 — 根据需求推荐最适合的模型
提示词生成 — 按对应模型的语法、参数生成最优提示词
跨模型转换 — 将一个模型的提示词转换为另一个模型格式
迭代优化 — 提供提示词诊断和改进建议

第一部分：生图模型 (Text-to-Image)

1. Midjourney (V7/V8.1)

定位：艺术质量标杆，从写实到插画全覆盖

提示词结构（四部分公式）

[--sref URL --oref URL] [主体描述], [场景/环境], [风格/氛围], [技术参数] --参数

核心原则

V7/V8用自然语言完整句子，不用关键词堆砌
词序=权重：越靠前的词越重要
长度：50-150 tokens最佳，超150适得其反
质量信号：具体光照 > 材质纹理 > 氛围 > 相机术语 > 质量修饰词
远离质量咒语：8k, ultradetailed, masterpiece 在V7中反而降质

关键参数速查

| 参数 | 作用 | 推荐值 | |------|------|--------| | --ar | 宽高比 | 4:5(ins), 16:9(宽屏), 3:2(摄影), 9:16(竖屏) | | --s / --stylize | 风格化(0-1000) | 产品25-50、广告100、品牌250+、插画500+ | | --style raw | 最小化AI解释 | 产品摄影、技术精度要求高的场景 | | --chaos | 差异度(0-100) | 探索30、精修0-10 | | --sref [URL] | 风格参考 | 锁定色调/光线/构图感觉 | | --sw | 风格参考权重(0-1000) | 默认100 | | --oref [URL] | 全息参考(V7) | 锁定人物外观特征 | | --ow | 全息参考权重(0-1000) | 默认100 | | --p | Moodboard | 跨项目持久美学 | | --no | 排除元素 | --no anime, cartoon, illustration | | --exp | 细节增强(0-100) | 10-25 | | ::N | 权重语法 | blue sweater::2 / watermark::-0.5 | | --seed | 种子控制 | 确保可复现 |

V7 vs V8.1 差异

| 功能 | V8.1 | V7 | |------|------|-----| | --oref 全息参考 | ❌ | ✅ | | --q 质量参数 | ❌ | ✅ 1/2/4 | | Draft模式 | ❌ | ✅ | | 生成速度 | 4-5x快 | 标准 | | HD原生2048px | ✅ | ❌ | | 多提示词/权重 | ❌ | ✅ |

迭代工作流

探索(60%时间): Draft模式 + chaos 30
精炼(30%): Fast模式，缩小到2-3选项
完善(10%): Fast模式 + Vary工具 → Upscale

照片级真实感配方

--s 50 --style raw --no anime, cartoon, illustration, painting, CGI, 3D render

示例模板

# 产品摄影
A minimalist ceramic mug on a marble surface, warm morning light from a nearby window, shallow depth of field, product photography aesthetic --ar 4:5 --s 30 --style raw

# 品牌生活方式
--sref [style_ref_url] A young professional working at a sunlit cafe in the afternoon, candid editorial photography, shot on Kodak Portra 400, soft natural light --ar 4:5 --s 100

# 电影感场景
Wide cinematic shot by Roger Deakins, a lone figure walking through a misty forest at dawn, dramatic backlight creating god rays through ancient trees, melancholic atmosphere --ar 21:9 --s 150 --no anime, cartoon

2. DALL-E 3

定位：自然语言专家 — 用完整句子对话即可

提示词结构

完整自然语言描述，按逻辑段落组织，而非逗号分隔标签

核心原则

使用完整句子，而非逗号分隔关键词（这是最大优势也是最大陷阱）
构图明确说明：from above in a wide shot vs close-up portrait
风格参考：in the style of a 1970s sci-fi book cover
图中文字：用引号括起来 a sign reading "Welcome"
无负面提示词：DALL-E 3不支持
无权重语法：通过自然语言描述强调

示例

A photorealistic scene of a home office at golden hour. A wooden desk by a large window overlooking a garden. On the desk sits a laptop with a coffee cup beside it. Warm sunlight streams through the window creating long shadows across the hardwood floor. A bookshelf fills the left wall with plants cascading down. Shot with a wide-angle lens to capture the entire room. Natural, cozy, lived-in atmosphere.

擅长领域

复杂多部分指令
图中文字渲染（四大模型中最佳）
概念性/抽象图像
零门槛上手

3. Stable Diffusion (SDXL/SD3)

定位：开源利器 — 完全自定义控制

提示词结构

(质量标签) + (主体描述) + 环境 + 风格 + 技术参数
负面提示词：独立字段

核心原则

质量标签开头：(masterpiece:1.2), (best quality:1.1), (photorealistic:1.1)
权重语法：(关键词:权重) 加强，[关键词:权重] 减弱
负面提示词必填：与正面提示词同等重要
Token限制：SD1.5保持75 CLIP tokens内，SDXL可更长
根据检查点调整：写实模型 vs 动漫模型的提示词策略不同

关键参数

| 参数 | 说明 | |------|------| | CFG Scale | 5-15，越高越遵守提示词 | | Sampling Steps | 20-50，越高越精细 | | LoRA | 特定风格/角色/概念的微调权重 | | ControlNet | 构图/姿态/深度控制 | | 负面提示词 | blurry, low quality, deformed, bad anatomy, watermark, text, ugly, amateur, extra limbs, disfigured, jpeg artifacts |

示例

正面提示词：
(masterpiece:1.2), (best quality:1.1), photorealistic portrait of a Japanese woman in her 30s, wearing a traditional silk kimono with cherry blossom patterns, standing in a zen garden, (soft golden hour lighting:1.1), shallow depth of field, shot on Canon EOS R5, 85mm f/1.2 lens, highly detailed skin texture, natural expression

负面提示词：
blurry, low quality, deformed, bad anatomy, extra limbs, disfigured, watermark, text, ugly, amateur, jpeg artifacts, plastic skin, unnatural expression

擅长领域

精细控制（LoRAs / ControlNet）
本地私密运行（完全离线）
角色一致性（通过LoRA）
免费开源生态

4. Flux Pro / Flux

定位：写实之王 — 摄影级真实感

提示词结构

详细描述性语言 + 摄影术语 + 技术参数

核心原则

使用摄影语言：相机型号、镜头规格、光圈、ISO、快门速度
光线用专业术语：Rembrandt lighting、golden hour at 6am、soft diffused studio light
长提示词更佳：具体细节越多越好
后期处理描述：color graded, slight film grain, subtle vignette
无负面提示词：通过正向详细描述代替

示例

High-resolution photograph of a master bedroom with floor-to-ceiling windows overlooking the ocean. The bed is made with crisp white linen sheets and a chunky knit throw blanket in warm beige. Natural morning light floods the room creating a serene atmosphere. Shot with a Canon EOS R5 and 24mm f/1.4 lens, wide angle, sharp focus throughout. Coastal minimalist interior design, organic textures, calming neutral palette. Color graded with warm tones, slight film grain, subtle vignette.

擅长领域

超写实图像（四大模型中最佳）
复杂场景/多物体
准确人体解剖
精确光照控制

四大生图模型选择指南

| 需求 | 首选 | 原因 | |------|------|------| | 艺术/创意/绘画 | Midjourney | 艺术质量最高 | | 写实照片质感 | Flux | 摄影级真实感 | | 自由控制/本地 | Stable Diffusion | LoRA+ControlNet生态 | | 图中文字/零门槛 | DALL-E 3 | 自然语言理解最强 | | 品牌一致性 | Midjourney + --sref | 风格参考系统成熟 | | 产品摄影 | Flux 或 MJ --style raw | 真实感+精确度 |

5. 即梦AI 4.0 (Jimeng / Seedream)

定位：字节跳动旗下 — 中文原生支持，自然语言直觉化创作

提示词结构（万能公式）

动作 + 对象 + 特征

即：[变化动作] + [变化对象] + [变化特征]

速查口诀：动作 + 对象 + 特征，内容 + 美学 + 用途

生图公式

# 公式一：主体 + 行为 + 环境
一个古装少年，持剑站在竹林中

# 公式二：风格 + 色彩 + 光影 + 构图
水墨画风格，黑白色调，竖屏壁纸

指令关键词速查

变化动作词：添加 | 增加 | 删除 | 移除 | 替换 | 参考 | 模仿
变化对象：主体（人物、动物、物品） | 背景 | 光影 | 色彩 | 材质
变化特征：明亮 黑暗 油画风格 写实摄影 Q版 冷色调 暖色调 雨天 黄昏 梦幻

风格维度参数

| 分类 | 可用词 | |------|--------| | 风格 | 油画、国画、水墨、工笔、儿童绘本、像素风、Q版、日漫、美漫、写实摄影、赛博朋克 | | 光影 | 逆光、侧光、剪影、夕阳、柔光、光影斑驳、轮廓光 | | 视角/景别 | 正面平视、俯视、仰视、四分之三侧、全景、中景、近景、特写、大特写 | | 材质 | 金属、玻璃、大理石、毛绒、毛毡、皮革、牛仔布、粘土、塑料、薄纱、亚克力 | | 背景 | 森林、卧室、咖啡厅、废墟、游戏厅、图书馆、纯色背景 | | 尺寸比例 | 1:1 方图、9:16 竖屏壁纸、16:9 宽屏、2:3、3:2、4:3 |

多图玩法

组合：将图1的人物放到图2的背景
迁移：参考图1的风格生成图2
替换：将图1的元素替换为图2的对象
组图：一次生成最多9张关联图

核心原则

中文原生友好：直接用中文描述，无需翻译
引号保证文字：" " 确保文字内容准确生成
指定用途：提示词末尾加用途，如 手机壁纸 或 电商主图
专业词汇保留原文：如 Macro lens shot 不翻译
自然语言即可：即梦4.0最大升级是自然语言直觉化创作

问题排查

| 问题 | 错误 | 正确 | |------|------|------| | 指代模糊 | 不要这人 | 去除背景里的路人 | | 指令过泛 | 让它更好看 | 提高对比度，让天空更蓝 | | 缺少保持描述 | 改成V4.0 | 将"V3.0"替换为"V4.0"，保持字体不变 | | 风格矛盾 | 油画风格，真实摄影 | 油画风格，笔触自然 |

示例

# 电商产品图
白色陶瓷咖啡杯，放在木质桌面上，清晨阳光从左侧窗户照入，柔光效果，浅景深，正面平视，简约风格，电商主图，比例1:1

# 国风插画
一位身着白色汉服的少女，站在桃花树下，微风吹动发丝和衣袂，工笔画风格，柔光，竖屏壁纸比例9:16

# 多图组合
将图1的产品放在图2的场景中，保持图1产品的材质和颜色不变，自然融入环境光影

注意：即梦平台同时整合了Seedance 2.0视频模型。生视频的提示词请参考本Skill的「Seedance 2.0」章节。即梦AI的生图模型Seedream 5.0与视频模型Seedance 2.0共用即梦平台。

6. 通义万相 (Tongyi Wanxiang) — 生图能力

定位：阿里巴巴旗下 — 从生图到生视频全家桶，API友好

生图提示词公式

提示词 = 主体 + 场景 + 风格

核心原则

支持中文：国内用户友好，中文描述即可
开启智能改写：prompt_extend=true 自动优化简短提示词
支持负面提示词：negative_prompt: "人物" 排除不需要的元素
通义千问联动：可通过通义千问大模型自动生成/优化提示词

示例

# 文生图
主体：一位苗族少女，身着传统银饰盛装
场景：黔东南梯田，黄昏时分，云雾缭绕
风格：写实摄影，暖色调，柔光

# 完整提示词
一位身着传统银饰盛装的苗族少女，站在黔东南梯田上，黄昏时分云雾缭绕，写实摄影风格，暖色调，柔光，高细节，16:9

擅长领域

中文友好，无需翻译
支持API调用，开发者友好
与通义千问大模型生态打通
生图+生视频一站式（生视频详见Wan章节）

7. 可灵 (Kling) — 生图能力

定位：快手旗下 — 生图+生视频双修，物理运动理解最强

可灵的生视频提示词详见本Skill「第二部分 — Kling 3.0」。以下为生图差异。

生图提示词公式

主体（具体描述）+ 场景（环境/光线）+ 风格（写实/插画/3D）+ 画质参数

生图 vs 生视频提示词差异

| 维度 | 生图 | 生视频 | |------|------|--------| | 动作描述 | 不需要 | 必须有动作时间线 | | 镜头运动 | 不需要 | 必须写镜头运动 | | 时长 | 不需要 | 必须写 | | 结构重点 | 主体+场景+风格 | SCALE五层模型 |

示例

# 生图
一位年轻女性，黑色长发，白色连衣裙，站在海边岩石上，夕阳逆光，裙摆飘起，写实摄影风格，高细节，16:9

# 生视频（对比）
Slow tracking shot from behind, a young woman in a flowing white dress stands on seaside rocks at sunset. She slowly turns toward the camera, black hair caught by wind, dress billowing. Golden hour backlight creates a luminous silhouette. Cinematic 35mm film grain, 5 seconds, 16:9.

8. 文心一格 (Wenxin Yige)

定位：百度旗下 — 百度生态深度整合，中文创作

提示词公式

主体 + 主体细节 + 场景/环境 + 风格/媒介 + 画质

核心原则

中文优先：百度模型对中文理解好
文心一言联动：可与文心一言对话生成提示词
支持负面提示词：排除不需要的元素
国风强项：中国传统文化题材表现出色

示例

# 国风插画
一位书生在竹林间抚琴，月光洒落，萤火虫飞舞，中国水墨画风格，意境深远，高清

# 产品摄影
一款青花瓷茶具套装，白色陶瓷表面有精致蓝色花纹，木质茶盘上，自然窗光从侧面照入，产品摄影，电商白底图，高清晰度，1:1

擅长领域

中国传统文化/国风题材
百度生态集成（文心一言/百度搜索）
中文语义理解深入

9. 智谱清言 CogView (Zhipu)

定位：智谱AI旗下 — GLM系列模型生态

提示词公式

主体描述 + 场景/环境 + 风格 + 技术参数

核心原则

中文+英文混合：中文主体描述，英文风格词汇效果更好
GLM大模型联动：智谱清言生态，可用对话生成/优化提示词
支持负面提示词：排除不需要的元素

示例

# 人物肖像
一位年轻女性，短发，穿着高领毛衣，坐在窗边，冬日下午的柔和光线，写实摄影风格，4K高细节

# 科幻场景
赛博朋克城市夜景，霓虹灯招牌，雨中街道，飞行汽车，cyberpunk aesthetic, cinematic lighting, ultra detailed, 16:9

10. 腾讯混元 HY (Tencent Hunyuan) — 全模态家族

定位：腾讯全链路自研多模态大模型家族，覆盖文本/图像/视频/3D四大模态

模型矩阵

| 模态 | 模型 | 能力 | |------|------|------| | 图像理解 | hunyuan-vision-1.5-instruct | 快思考视觉模型，图像识别/分析推理 | | 图像理解(深度) | hunyuan-t1-vision | 视觉深度思考，图文问答/OCR/图表/拍题解题 | | 视频理解 | hunyuan-turbos-vision-video | 视频描述、视频内容问答 | | 图像生成 | hy-image-v3.0 (混元生图3.0) | 80B MoE架构，千字级复杂语义解析，有思维推理能力 | | 视频生成 | HunyuanVideo 1.5 | 8.3B参数开源，文生视频+图生视频，提示词自动改写 |

A. 混元生图3.0 (HY-Image-V3.0)

独有能力：可"思考"图像的布局/构图/笔触，利用世界知识推理常识性画面

提示词公式

主体（具体描述）+ 场景（环境/光线/时间）+ 风格（18种预置+自定义）+ 文字内容（如有）+ 画质要求

核心原则

支持千字级复杂语义：超长提示词，复杂叙事性描述
Prompt自动扩写：系统自动理解→推理→再描述，生成结构化扩写提示
思考+推理能力：模型先think再recaption，确保常识正确（如"猫不应有翅膀"）
图中文字渲染：生成包含文本的图片、漫画、表情包
多轮对话编辑：支持通过对话逐步调整图像内容
18种预置风格 + prompt自定义风格
支持8种分辨率，1-4张批量生成

示例

# 复杂叙事（千字级）
在一个蒸汽朋克风格的未来城市，一位穿着铜色机械外骨骼的少女站在高塔边缘，俯瞰下方云雾中若隐若现的飞行器。黄昏的橙色阳光从她背后洒下，照亮了外骨骼上精致的齿轮和管道。她的长发在风中飘扬，眼神坚定而温柔。远处的天空中，巨大的飞艇缓缓驶过，投下长长的阴影。画面中央有一块破旧的金属招牌，上面写着"NEO CITY 2084"。电影级构图，广角镜头，16:9，高细节。

# 简单提示词（自动扩写）
一只橘猫在阳光斑驳的花园中追逐蓝色蝴蝶
→ 系统自动扩写为包含环境光效、背景元素、镜头语言的完整描述

# 图生图编辑（多轮对话）
第1轮：一间现代客厅，蓝色沙发
第2轮：把沙发颜色改为橙色
第3轮：在茶几上放一本书

擅长领域

复杂语义/长文本叙事生图
图中文字渲染（漫画/海报/表情包）
科普插画/信息图
腾讯云生态深度集成

B. 混元视频生成 (HunyuanVideo 1.5)

定位：轻量级开源视频模型 — 消费级GPU可运行，内置提示词改写

核心参数

| 参数 | 数值 | |------|------| | 模型参数量 | 8.3B（83亿） | | 架构 | DiT + 双流-单流混合Transformer | | 生成能力 | 文生视频 + 图生视频 | | 生成时长 | 5秒 | | 消费级GPU速度 | ~4分钟/条(720p) | | 开源 | ✅ 权重开源 |

提示词改写双模式（独有技术）

| 模式 | 特点 | 效果 | |------|------|------| | Normal模式 | 侧重指令精准解读，简单→完整语句 | 文本对齐度从68%→92% | | Master模式 | 强化构图/光影/镜头运动，电影感 | 视觉质量提升30% |

提示词公式

主体（特征明确）+ 动作/情节 + 环境/背景 + 光影/氛围 + 镜头运动

改写引擎会自动补充：环境光效、背景元素、镜头语言、主体细节

示例

# 简单提示词（自动改写）
一只猫追蝴蝶

→ Normal模式改写后：
一只橘色家猫在阳光斑驳的花园中追逐蓝色凤蝶，背景包含盛开的玫瑰丛与白色篱笆，镜头跟随动物运动保持焦点。

# 完整提示词
一位登山者沿着山间小径前行，背包上的水壶随步伐有节奏地摆动，镜头跟随人物运动保持中景构图。清晨的薄雾从山谷中升起，阳光透过松树林洒下斑驳光影。写实风格，5秒，16:9。

图生视频 (HunyuanVideo-I2V)

上传一张图片 + 简单描述动态效果 → 生成5秒短视频
130亿参数多模态大语言模型驱动
支持ComfyUI集成
开源权重可本地部署

C. 混元多模态理解

| 模型 | 用途 | 提示词要点 | |------|------|-----------| | Vision 1.5 | 图像识别/分析推理 | 直接描述任务：分析这张图片的构图和光线运用 | | T1 Vision | 深度视觉推理 | 可做多步推理：先数图中有几个人，再描述他们的位置关系，最后判断情绪 | | Video Vision | 视频描述/问答 | 描述这个视频中发生的事情 / 视频第3秒发生了什么？ |

D. 生态集成

腾讯元宝APP：已集成HunyuanVideo视频生成
微信/QQ生态：小程序/公众号场景
腾讯云API：企业级调用
ComfyUI：开源模型可本地工作流集成
开源：HunyuanVideo 1.5 + I2V权重开源

11. GPT Image 2 (OpenAI)

定位：文字渲染之王 — 推理驱动生成，多轮对话式编辑

核心能力

| 能力 | 说明 | |------|------| | 文字渲染 ~99% | 支持中文/英文/日语/韩语等多语言，名片/海报/UI界面/招牌文字无错字 | | 最高4K分辨率 | 4096×4096像素，支持1:1/16:9/9:16等多种比例 | | 推理驱动生成 | 先思维链规划构图→验证空间关系→核实文字拼写，还可联网搜索参考 | | 多轮对话编辑 | 逐步调整局部细节（替换/添加/删除元素、颜色调整、风格变换），光影透视自动保持 | | 色彩精准 | 已消除黄色色偏，白色真实还原，饱和度准确 |

提示词结构

[主体内容] + [文字/排版细节] + [色彩/氛围] + [分辨率/比例要求] + [可选参考风格]

因为是自然语言对话式，直接用完整句子描述即可，无需逗号分隔标签。

核心原则

充分利用自然语言描述多元素复杂场景：可放心列出多个元素、位置关系、颜色、文字
精确指定文字内容：拼写准确的标题/电话/邮箱/按钮标签，无需担心乱码
多轮编辑迭代：首轮生成基线图→后续自然语言指令改局部
明确色彩偏好：冷/暖色调、白平衡
风格参考：动漫/写实/扁平化设计等

多轮编辑示例

第1轮：一间现代客厅，蓝色沙发，白色茶几，下午阳光从落地窗照入
第2轮：把蓝色沙发换成橙色几何纹样的，保持光影一致
第3轮：在茶几上放一杯热咖啡和一本书，书名"AI Prompt Engineering"

擅长领域

文字密集型图像：名片/海报/信息图/UI界面（业界最强文字渲染）
多语言营销物料：同时渲染中/英/日/韩文字
复杂指令遵循：多个元素+约束条件逐条满足
高精度写实：织物纹理/皮肤毛孔/光影反射/景深远超DALL-E 3
风格化创作：动漫风格还原度高

示例

生成一张播客宣传图，标题"Let's Talk AI"，副标题"Weekly Insights"，底部小字"Available on Spotify & Apple Podcasts"，整体采用深蓝渐变背景、霓虹粉字体，长宽比16:9，现代科技风格。

12. Nano Banana Pro (Google)

定位：角色一致性之王 — 跨图追踪5个角色+14个物体

五元素提示词公式

[风格] + [主体] + [场景] + [动作] + [构图]

| 元素 | 说明 | 示例 | |------|------|------| | 风格(Style) | 视觉风格或艺术手法 | watercolor painting / 35mm film photography / photorealistic | | 主体(Subject) | 具体描述外观、材质 | a golden retriever puppy（而非简单的a dog） | | 场景(Setting) | 环境/地点/背景/时间/天气 | in a sunlit botanical garden during early morning | | 动作(Action) | 主体正在做什么 | leaping over a puddle | | 构图(Composition) | 镜头角度/取景/透视 | close-up / wide-angle / bird's eye view / low angle |

核心原则

使用自然语言流畅句子：模型更理解自然散文，而非关键词列表
具体化：a Persian cat with amber eyes 优于 a cat
正向描述：用sharp focus而非no blur
迭代优化：从基础提示词开始→逐步添加元素

文字渲染技巧

用引号包裹文字：reading 'Open All Night'
指定排版风格：字体、字重
文字保持1-6词效果最佳
放在清晰可读的表面上：标志/标签/书封面
支持多语言：日语/阿拉伯语/韩语等

图像编辑技巧

精确说明要改什么：具体指出元素和修改方式
说明要保留什么：Keep the lighting and background, but change the dress to red
一次一个修改：复杂编辑分步进行

主体一致性（业界最强）

给角色命名，每次用相同名字和关键描述词
包含3-5个独特物理特征（发色/服装/配饰）
先描述角色再描述场景/动作
容量：最多5个命名角色，14个不同物体
支持批量生成：单提示词生成多个变体

参数

| 参数 | 选项 | 说明 | |------|------|------| | 分辨率 | 1K / 2K / 4K | 1K快速测试，2K平衡，4K精修 | | 宽高比 | 1:1 / 16:9 / 9:16 / 2:3 | 按平台选择 | | SynthID | 自动嵌入 | 不可见数字水印，用于AI内容识别 |

已知限制及应对

| 限制 | 应对 | |------|------| | 群体场景面部失细节 | 紧凑取景/人像裁剪，限制人数 | | 长单词拼写出错 | 文字1-6词，长文本分多行 | | 微小细节简化 | 4K分辨率+特写构图 | | 手部不自然 | 让手自然放置(休息/握持简单物体)，避免复杂手部互动 | | 空间关系不精确 | 用相对描述：in the foreground / in the background |

示例

# 完整五元素提示词
A watercolor painting of a red fox leaping through fresh snow in a quiet birch forest at dawn, soft morning light filtering through bare branches, captured from a low angle with a shallow depth of field

# 主体一致性场景
Character "Luna" — a young woman with silver pixie-cut hair, round glasses with gold frames, and a green scarf — sitting at a Parisian café table. Close-up portrait, natural window light, cinematic 35mm film photography.

擅长领域

跨图角色一致性（业界最强：5角色+14物体追踪）
虚拟试穿/角色设计/连环叙事
批量生成一致性系列作品
原生图像编辑（生成+编辑一体）

全模型生图选型总表

| 需求 | 首选 | 次选 | |------|------|------| | 艺术/创意/绘画 | Midjourney | DALL-E 3 | | 写实照片质感 | Flux | Midjourney --style raw | | 自由控制/本地 | Stable Diffusion | — | | 图中文字/零门槛 | DALL-E 3 | 即梦AI | | 品牌一致性 | Midjourney + --sref | Stable Diffusion + LoRA | | 产品摄影 | Flux 或 MJ --style raw | 即梦AI / 通义万相 | | 中文自然语言/国风 | 即梦AI 4.0 | 文心一格 | | 开发者/API调用 | 通义万相 | 智谱清言 | | 写实人物/物理运动 | 可灵 | Flux | | 传统文化/国风深度 | 文心一格 | 即梦AI | | 大模型联动 | 智谱清言 | 通义万相 | | 微信生态/小程序 | 腾讯混元 | — | | 电商产品图 | 即梦AI / 通义万相 | Flux |

第二部分：生视频模型 (Text-to-Video / Image-to-Video)

通用视频提示词框架

所有视频模型遵循相同的六要素框架：

[镜头类型/景别] + [主体+视觉细节] + [单一动作/动作序列] + [环境/时间/天气] + [镜头运动] + [光线+风格+画质]

通用铁律（跨所有视频模型）

明确时长：指定"一段6秒的片段"或"相机在整段镜头中缓慢移动"
运动上限2个：镜头运动 + 角色动作，超过就崩
每动作一个动词：描述动作序列而非堆砌动词
钉住灯光：画面左侧的暖色钨丝灯 / 阴天的漫射日光
正向替换优于负向：不说"不要"，说"应该是"
英文优先：所有模型对英文理解远好于中文
先短测试后全长：3-4秒低分辨率测试 → 迭代 → 全长高分辨率
一次只改一个变量：镜头/运动强度/风格三选一

5. Seedance 2.0

定位：电影级质量，品牌视频首选

完整提示词公式

镜头类型 → 主体（视觉细节）→ 单一动作 → 环境（时间/天气）→ 镜头运动 → 光线 → 视觉风格 → 宽高比

长度建议：35-80英文词

镜头运动术语速查

| 类型 | 术语 | 适用场景 | |------|------|----------| | 推轨 | slow dolly-in / slow dolly-out | 揭示、情感增强 | | 平移 | gentle pan left / gentle pan right | 跟随主体、展现广度 | | 摇镜 | tilt up / tilt down | 垂直揭示、定场 | | 变焦 | subtle zoom in / slow zoom out | 焦点转移、距离感 | | 跟拍 | tracking shot | 动作场景、运动主体 | | 环绕 | orbit around the subject | 戏剧揭示、强调主体 | | 手持 | handheld slight camera shake | 纪录片风格、真实感 | | 摇臂 | crane shot | 宏大揭示、定场镜头 | | 希区柯克 | Hitchcock zoom when startled | 惊悚、戏剧强调 | | 航拍 | aerial drone shot | 上帝视角、环境 | | 固定 | static shot / locked-off | 氛围、沉思 |

光线关键词（最高杠杆元素）

golden hour sunlight / soft diffused cloud light / blue twilight, cool tones / clean studio lighting, soft box / hard chiaroscuro, deep shadows / neon reflections on wet pavement / warm candlelight flickering, low key / soft natural window light / color temperature: warm/cool

视觉风格关键词

cinematic, 35mm film grain, Kodak color palette / anamorphic lens flares / documentary style, naturalistic / moody and atmospheric / ethereal and dreamlike / gritty and realistic / 1970s film aesthetic, muted colors / noir style, black and white

负面提示词（必加）

avoid jitter, avoid bent limbs, avoid temporal flicker, avoid identity drift, avoid chaotic composition

分场景模板

产品广告：

Studio product shot, [product name and details], slow camera orbit revealing texture and craftsmanship, clean studio lighting with soft box from above, subtle rim light on edges, minimal background, cinematic commercial quality, 16:9

TikTok/Reels：

Vertical close-up shot, [subject] doing [one clear action], dynamic energy and engaging, soft ring light on face, clean background, vertical format 9:16, avoid jitter and bent limbs

电影感场景：

Wide cinematic shot, [subject] in [location at time of day with weather], [one clear action], slow dolly forward, golden hour backlighting creating dramatic shadows, 35mm film grain, anamorphic lens flares, moody and atmospheric, 16:9

图生视频：

Animate this image with a subtle slow zoom in, natural blinking, hair moving gently in a light breeze, soft cinematic lighting, realistic motion, no camera shake, avoid identity drift and temporal flicker

模型选择策略

| 模型 | 适合 | 不适合 | |------|------|--------| | Seedance 2.0 | 电影级质量、品牌视频、细节场景 | 快速大量迭代 | | Seedance 1.5 | 快速迭代、测试方向 | 最终精修 | | Kling 3.0 | 角色动作、人体运动 | 复杂背景 | | Veo 3.1 | 高细节环境、重参考场景 | 抽象/风格化 |

推荐工作流：Seedance 1.5草稿 → 优化提示词 → Seedance 2.0最终生成（节省40-60%积分）

任务类型框架（参考/编辑/延长）

Seedance 2.0在参考生视频场景中有三类核心任务：

| 任务类型 | 用途 | 推荐句式 | |----------|------|----------| | 参考(Reference) | 从素材中提取元素，生成全新视频 | 参考<图片N>中的<主体N>，生成...；参考<视频N>中的[动作/运镜/场景/风格/音效]，生成... | | 编辑(Edit) | 在原视频基础上局部修改 | 严格编辑<视频N>，将其中的[原特征]修改为[新特征]... | | 延长(Extend) | 时间维度延续原视频 | 延长<视频N>，生成...；向前延长<视频N>，生成... | | 组合任务 | 参考+编辑同时进行 | 参考<图片N>的[维度]，严格编辑<视频X>，[编辑内容] |

⚠️ 编辑和延长任务中，不要使用"参考视频N"字样，直接用<视频N>，避免被误识别为参考任务。

主体定义方法（生产级）

使用 <主体N> 标签定义角色，确保跨镜头一致性：

# 基本定义（2-3个稳定特征）
将<图片1>中"穿红色连衣裙、戴草帽的女人"定义为<主体1>

# 多素材同一主体（统一绑定）
将<图片1>中的[...]、<图片2>中的[...]定义为<主体1>

# 多主体场景（分别定义+稳定标签）
将<视频1>中的高个子男人定义为<主体1>(警察)
将另一个矮个子男人定义为<主体2>(小偷)

规则：

每次涉及主体时需明确指代（每次出现就提及一次）
说"图1、视频1"来指代素材，不要用Asset ID代替
描述尽量简洁，避免语义冲突，空间关系优先用参考图表达

动态描述层级

按时间顺序，遵循以下层级：

镜头（运镜/切换）→ 主体（动作+表情）→ 空间（位置变化）→ 音频（音效/台词/配乐）

动作描述细化到肢体（手/腿/头部），补充程度（幅度/速度/力度）： 缓慢抬手 快速转头 用力蹬地

时序方面：支持镜头顺序（镜头1、镜头2、镜头3）；对精确时间（0-3秒）支持不稳定，优先让模型自然生成节奏。

特殊字符规范

| 内容类型 | 符号 | 示例 | |----------|------|------| | 音乐/BGM | （） | （背景中播放着快节奏的摇滚乐） | | 音效/SFX | <> | <远处传来狗叫声> | | 台词/对话 | {} | {你好，世界}；小语种需标注：用日语说道{こんにちは} | | 字幕 | 【】 | 【第一章：启程】 | | 画外音/VO | [VO] 标记 | [VO] 完了没忍住… 开会当场社死 | | 镜头标记 | 【景别，角度，运镜】 | 【近景，平视，固定镜头】 |

⚠️ prompt中避免使用--，该符号之后的内容不会被模型解析。

生产环境高频问题与解决方案

| 编号 | 问题 | 典型现象 | 解决方案 | |------|------|----------|----------| | V-1 | 人物ID漂移 | 角色与参考图不一致，中途"换脸" | 将人脸区域单独裁剪为特写图输入；重要素材放prompt前部；三视图不如大头照+全身照 | | V-2 | 生成字幕 | 画面出现字幕且文字有误 | 加"保持无字幕"指令；去参考图文字；横屏生成概率低于竖屏（<10% vs 60%） | | V-3 | Logo/水印 | 视频带bilibili/芒果TV等水印 | 明确加"不要生成logo""不要生成水印" | | V-4 | 风格漂移 | 2D/3D动漫漂移成真人写实 | 明确写"3D国风漫画""2D日漫风格"；参考图先转目标风格再输入 | | V-5 | 规律闪烁 | 大面积色块画面有规律闪烁 | 暗水印算法导致，新版本优化中 | | V-6 | 延长跳变 | 延长视频拼接处画面跳变/回退 | 前段末尾删6帧 + 后段开头删1帧；续写时以转场切镜处结尾 | | V-7 | 双胞胎问题 | 画面出现两个一模一样的人物 | 明确禁止："视频全程不要在同一画面中复制相同人物，不要多人同脸"；三视图时需告知模型图1为同一角色不同角度 | | A-1 | 结尾噪音 | 视频结尾"咔哒"截断音 | 剪映音量包络线末尾淡出到0 | | A-2 | 中文发音不准 | 多音字/生僻字读错 | 替换为同音常见字，如"棪木"→"燕木" | | A-3 | 音色参考不准 | 萌妹子音色变御姐 | Prompt加音色特点描述；台词风格尽量接近参考音频 |

主体ID漂移深度解法（V-1详解）

核心原则：人脸参考图必须独立且占有足够权重

| 做法 | 效果 | |------|------| | ❌ 人脸+全身+服装+背景混在一张图 | 人脸权重不够，被背景干扰 → 撞脸明星 | | ✅ 单独裁剪人脸特写图（只保留面部，避免过多颈肩背景） | 严格参考人物ID | | ✅ 重要素材放prompt前部 | 越靠前权重越高 | | ✅ 明确指定："主体1面部特征参考@图片1(大头照)，妆造参考@图片2(全身照)" | 分工明确，不混淆 |

6. Kling 3.0 (可灵)

定位：物理运动理解最强，中文友好

SCALE框架（推荐组织方式）

Shot（镜头类型+运动）→ Character（角色+外观）→ Action（动作时间线）→ Lighting & Location（光线+场景）→ Extra（音频/风格/参数）

Shot必须放最前面：镜头语言是Kling 3.0最敏感的信号

核心原则

动作必须有时序：按时间顺序描述，有先后有因果
每个形容词替换为具体视觉参考：不用beautiful, cinematic，用shot on 35mm film with anamorphic lens flare
运动描述要具体：物理交互如liquid streams visible with natural physics, steam rising

Kling 3.0吃的准的镜头术语

Dolly push-in/pull-out / Tracking shot / Handheld shoulder-cam / Static tripod / Whip-pan / Crash zoom / Rack focus / Low-angle/High-angle / FPV drone / Dutch angle

Multi-shot写法（最多6镜头，最长15秒）

Shot 1: [完整镜头描述]
Shot 2: [完整镜头描述]
...

节奏公式：4-6个shot配10-15秒最佳

过渡技巧：从wide establishing到close-up的大跳切处理自然；避免连续相似角度

Motion Control技巧

参考视频提供动作 → 图片提供角色外观 → 模型映射动作
Prompt里不描述任何动作！ 动作由参考视频定义
Prompt只关注：(1)角色长什么样 (2)环境什么样

# 正确
Confident marketing spokesperson in tailored navy suit with crisp white shirt, clean-shaven. Modern corporate studio with soft diffused lighting and shallow depth of field, subtle grey gradient background.

# 错误
The spokesperson raises their hand and gestures while speaking...

Multi-shot全流程示例

Shot 1: Wide establishing shot of a rainy Tokyo alleyway at night, neon signs reflecting on wet pavement, slow push-in through the narrow street, cool blue tones with warm neon accents, ambient city sounds.

Shot 2: Medium tracking shot from behind, a young woman in a yellow raincoat walks through the alley, handheld shoulder-cam following her movement, rain falling steadily.

Shot 3: She stops at a ramen stall, pushes aside the noren curtain. Warm golden light spills out into the cold blue alley, dramatic temperature contrast, slow dolly forward.

Shot 4: Close-up of her hands wrapping around a steaming bowl of ramen, steam rising through the frame, shallow depth of field, 100mm macro feel, push-in to extreme close-up.

Shot 5: Wide shot from inside the stall looking out, she eats ramen while rain intensifies outside, neon reflections dancing on puddles, warm amber interior vs cool exterior, cinematic 35mm film grain.

7. Sora 2

定位：电影感之王 — 世界模拟器

核心原则

使用电影语言：景别、镜头焦段、灯光配置、运镜方式
必须显式给出节奏：相机在整段8秒镜头中持续缓慢上摇
正向替换负向：不说background has no people，说the street behind her is empty
弱点是"过度热情"：不规定时长则运动过快过多

示例

85mm portrait lens, shallow depth of field, golden hour sunset, slow handheld push-in. A woman in her 40s stands at a vineyard edge, wind gently moving her linen dress and loose hair. The camera slowly pushes in over an 8-second shot from medium to close-up, revealing the fine lines around her eyes as she squints into the warm light. The rows of grapevines stretch behind her, softly blurred. Analog film aesthetic, Kodak Portra color palette, naturalistic documentary feel.

8. Runway Gen-4 / Gen-4.5

定位：连贯性之王 — 图生视频最强

核心原则

强依赖参考图，精简prompt：30词+强参考图 > 100词无参考图
Prompt只负责"动作"与"镜头"：视觉身份交给参考图
Motion Brush：涂抹运动区域，其余静止
多镜头角色一致性：同一角色参考图+不同场景描述

I2V示例

The camera slowly orbits around the subject, wind blowing through her hair, subtle breathing motion, gentle handheld camera movement, cinematic lighting, no background change, avoid temporal flicker.

9. Pika 2.0

定位：风格化与速度 — 动画/风格化首选

核心原则

风格锚点放最开头：anime, hand-drawn, 24fps / low-poly 3D, soft pastel palette / stop-motion, felt texture
禁止文字幻觉：no readable text on any surfaces or signs
不适合写实：写实摄影类推荐其他模型

示例

stop-motion animation, felt texture, a small fox exploring a miniature forest made of paper and cardboard, warm afternoon light filtering through, whimsical and charming, 4 seconds, avoid jitter and flicker, no readable text on any surfaces.

10. Google Veo 3 / 3.1

定位：音画同步叙事 — 原生音频最强

七大提示词元素

镜头构图与运动 — 低角度、平移等
风格 — 卡通/黏土动画/35mm胶片/VHS录像带
光照 — 均匀暖光/聚光灯/逆光
角色描述 — 具体到雀斑、卷发、年龄
场景地点 — 越详细越好
动作 — 具体动词
对话 — Veo 3可生成说话视频

示例（含对话）

A jazz pianist playing in a dimly lit underground club, fingers dancing across worn ivory keys, slow zoom into the piano. Smooth jazz music playing, crowd murmuring softly in the background, ice clinking in glasses. The pianist, a man in his 60s with gray temples and a weathered face, closes his eyes as he plays. "This one's for all the late nights and lost loves," he says in a gravelly voice. Warm amber spotlight on the piano, cigarette smoke swirling in the air, cinematic film tone, 35mm, 4K.

构建世界 vs 角色 vs 复杂动作

Veo 3提供了三种不同的提示策略：

构建世界：感官语言描述想象世界
角色驱动：详细外貌+动作+对话
复杂动作：逐帧/逐动作的详细描述

11. Luma Dream Machine v3

定位：镜头魔法 — Keyframe转场最强

核心原则

对摄影术语理解极好：crane shot、Steadicam、locked-off都能准确执行
Keyframe是杀手锏：首帧+尾帧图像 → 自动生成中间过渡
Prompt只描述连接两帧的运动

示例

Crane shot rising from ground level to reveal the city skyline, morning fog slowly dissipating, golden sunrise light breaking through clouds. The camera rises smoothly over 5 seconds. Shot on Arri Alexa, 35mm lens, cinematic color grading.

Keyframe转场工作流

准备首帧图（起点画面）
准备尾帧图（终点画面）
Prompt只写运动路径：Camera orbits from the front view to the profile view of the subject, smooth constant speed, 4 seconds

12. 通义万相 Wan 2.5/2.6/2.7

定位：阿里巴巴旗下 — 从生图到生视频全家桶，API最完善

提示词公式体系（6种场景专用公式）

| 公式类型 | 结构 | 适用版本 | |----------|------|----------| | 基础公式 | 主体 + 场景 + 运动 | 所有版本 | | 进阶公式 | 主体(描述) + 场景(描述) + 运动(描述) + 美学控制 + 风格化 | 所有版本 | | 图生视频公式 | 运动 + 运镜（不重复描述画面内容） | 所有版本 | | 声音公式 | 主体 + 场景 + 运动 + 声音描述(人声/音效/BGM) | Wan2.5+ | | 多镜头公式 | 总体描述 + 镜头序号 + 时间戳 + 分镜内容 | Wan2.6+ | | 参考生视频公式 | Wan2.7: 参考指代 + 动作 + 场景 + 台词(可选) + 背景音乐(可选); Wan2.6: character1/2 + 动作 + 台词 + 场景 | Wan2.6+ |

美学控制参数

| 类别 | 可选用词 | |------|----------| | 光源 | 日光、火光、阴天光、晴天光 | | 光线 | 柔光、硬光、侧光、边缘光、高对比度、背光、顶光 | | 时间段 | 白天、夜晚、黎明、黄昏、日出、日落 | | 景别 | 特写、近景、中景、全景、极端全景、中近景、中全景 | | 构图 | 中心构图、左/右侧重构图、对称构图、平衡构图 | | 镜头焦段 | 长焦、广角、超广角-鱼眼、中焦距 | | 机位角度 | 过肩镜头、高角度/低角度拍摄、航拍、俯视/仰拍 | | 色调 | 暖色调、冷色调、低饱和度、高饱和度、混合色调 |

风格化

| 风格类型 | 示例 | |----------|------| | 视觉风格 | 毛毡风格、3D卡通、像素风格、木偶动画、黏土风格、黑白动画 | | 特效镜头 | 移轴摄影、延时拍摄 | | 特殊风格 | 赛博朋克、废土风格、蒸汽朋克、VHS故障美学、8-bit像素 |

声音描述三要素

人声 = 说话内容 + 情绪 + 语调 + 语速 + 音色 + 口音
音效 = 音源材质 + 行为 + 环境音
背景音乐 = 背景音乐/配乐 + 风格

多镜头示例

总体描述：科幻题材，一个火箭发射的完整过程，史诗风格，电影质感

镜头1[0-3秒]：火箭发射台远景，广角，烟雾滚滚，引擎轰鸣，倒计时声
镜头2[3-6秒]：驾驶舱内宇航员特写，控制面板蓝光闪烁，额头上汗水，呼吸沉重
镜头3[6-10秒]：从舷窗视角看地球缩小，星空出现，管弦乐渐强，低音轰鸣

4K，15秒，比例2.39:1

参考生视频示例（Wan2.7）

图1的猫咪在图2的客厅里玩耍，追逐着激光笔的红点，欢快地跳跃。台词："来抓我呀！"（欢快语调）。背景音乐：轻快的爵士钢琴。

版本特性速查

| 版本 | 核心能力 | |------|----------| | Wan2.5 | 基础生视频 + 声音公式 | | Wan2.6 | + 多镜头公式 + 参考生视频(character引用) | | Wan2.7 | + 多镜头升级(模型自动判断单/多镜头) + 参考生视频(图/视频编号指代) + 台词/BGM独立控制 |

关键技巧

开启prompt_extend：自动智能改写简短提示词，效果提升明显
用大模型辅助写提示词：将公式作为system message给通义千问，让LLM按公式输出
Wan2.7强制单镜头：中文写"生成单镜头"，英文写"Generate single shot."

13. 海螺AI Hailuo 3.0 (MiniMax)

定位：音画同步先驱 — 视频+配乐一次生成，多模型切换平台

黄金提示词公式

[主体] + [动作] + [运镜] + [氛围/光线] + [画质要求] + [音乐风格]

核心参数

| 参数 | 选项 | 建议 | |------|------|------| | 生成模式 | 文生视频 / 图生视频 | 电商用图生视频+360°轨道镜头 | | 画质 | 720p / 1080p | 测试用720p，出片用1080p | | 时长 | 5秒 / 10秒 | 先5秒测试，确认后换10秒 | | 画面比例 | 16:9 / 9:16 / 1:1 / 4:3 / 3:4 / 21:9 | 横屏16:9，竖屏9:16 | | Smart Expansion | 开启/关闭 | 强烈建议开启，AI自动优化prompt | | 音乐提示词 | 独立字段 | 行业独有功能，必填 |

音乐提示词（独有功能）

在Music Prompt字段中填写音乐风格描述：

"Upbeat electronic, driving beat, modern"
"Cinematic orchestral, epic crescendo"
"Lo-fi hip hop, chill, warm vinyl crackle"
"Ambient electronic, soft pads"

分场景模板

# 产品展示
Product shot of [产品名] on white background, camera orbiting 360, soft studio lighting, shallow depth of field, 1080p
音乐：Ambient electronic, soft pads

# 短视频爆款
Fast-paced montage of [主题], dynamic camera movements, vibrant colors, high energy, 9:16 vertical
音乐：Upbeat pop, driving beat

# 电影感画面
Cinematic wide shot of [场景], slow dolly in, misty atmosphere, anamorphic lens flare, moody color grade, 16:9
音乐：Cinematic orchestral, epic

多模型切换（同一平台）

Hailuo 3.0内置6个顶级模型： | 模型 | 类型 | |------|------| | Seedream | 字节高质量生图/视频 | | Veo 3 | Google视频生成 | | Sora 2 | OpenAI视频生成 | | Seedance | 字节视频生成 | | Wan 2.5 | 开源视频模型 | | Video Enhancer | 画质增强 |

一个会员使用所有主流模型，无需单独付费。

避坑提示

不要只用简单短语："a car driving" 效果不可控
最长10秒：长视频需后期拼接
最高1080p：无4K，大屏投放受限
商业用途必须付费版：免费版带水印

14. Vidu AI (生数科技)

定位：主体一致性最强 — 多镜头角色保持

提示词基础公式

主体/场景 → 场景描述 → 环境描述 → 艺术风格/媒介

核心原则

避免主体物过多：精简主体，集中描述
避免模糊术语：表述尽可能准确
口语化措辞：流畅自然的语言，避免过度文学化
"大动态"关键词：触发更大运动幅度

风格化技巧

在提示词前加风格声明：

[电影风格/拍摄方式/媒介] + [基础提示词]

示例：

In classical romantic movie style, a melancholic teddy bear sitting on a windowsill, watching rain fall. The lighting is soft, with a blend of pink and golden hues from a setting sun, enhancing a romantic atmosphere.

氛围词重复强化：在不同位置多次使用氛围词提升风格一致性。

主体一致性（独有优势）

上传三视图（正面、侧面、背面）提升识别准确率
@调用主体：在提示词中输入@调取已保存主体
主体限量：图片≤7张，主体≤4个
添加特征词：扎着丸子头的小男孩@哪吒、带着蓝色脖套的@小狗
时间结构控制：首帧xxxx，中间帧xxxx，尾帧xxxx 或 第1秒xxxx，第2秒xxxx

电影风格关键词

Sci-fi / Western / Crime / Horror / Thriller

优化策略

首先生成往往不稳定，需针对性修改
增加变化过程和变化后主体的细节描述
当效果无法达到时，可能是模型本身限制

调优示例

# 原始
图片中的人物变身为3D卡通人

# 优化后（详细描述转变过程+最终风格）
图片中的人物逐渐变身为3D卡通风格角色，转变过程中：超大眼睛、红润脸颊、夸张头身比、圆润的手脚。最终呈现：3D渲染风格，活泼的表情，流畅的肢体动作，柔和的色彩，皮克斯动画电影质感。

擅长领域

多镜头角色一致性（三视图+主体库）
复杂主体精准控制
多主体交互场景
参考生功能（多视角角色/物体细节一致）

15. HappyHorse (阿里快乐小马)

定位：阿里ATH创新事业部 — 2026年4月登顶Video Arena双榜冠军，音画联合生成先驱

核心参数

| 参数 | 数值 | |------|------| | 参数量 | 150亿（15B） | | 架构 | 40层单流自注意力Transformer | | 推理加速 | 8步DMD-2推理优化 + MagiCompiler运行时 | | 生成速度 | 单H100卡38秒出片 | | 分辨率 | 最高2K（1080P会员可用） | | 时长 | 3-15秒 | | 开源 | ✅ 完全开源，支持商用 | | 定价 | 约0.9元/秒起 |

核心能力

| 能力 | 说明 | |------|------| | 音画联合生成 | 首创！单次推理同时输出画面+音频，对白/环境音/配乐天然对齐，无需后期配音对口型 | | 多语言口型同步 | 支持6种语言：中/英/日/韩/德/法 | | 自动多镜头调度 | 切镜时机与运镜方式符合叙事逻辑，无需手动编排 | | 图生视频 | 上传图片→描述动态→生成视频 | | 参考生视频 | 使用参考素材（视频片段/音频/蒙版）引导生成 | | 风格标签 | 港风电影、复古胶片、水墨工笔、折纸、粘土定格动画等 | | 画幅 | 横屏/竖屏/方形 |

提示词结构

场景 + 人物 + 动作 + 情绪 + 镜头语言

官方建议：包含场景、人物、动作、情绪、镜头语言（如"大光圈中近景"）等信息

运镜控制（自然语言）

通过自然语言描述运镜方式即可，模型会自动理解和执行：

| 运镜描述 | 示例 | |----------|------| | 低角度英雄式 | 低角度英雄式仰拍 | | 镜头弧线过渡 | 镜头快速弧线过渡后减速为俯视角度 | | 大光圈中近景 | 大光圈中近景 |

音画同步控制

开启/关闭：可在生成设置中切换
音频内容：对白（台词+情绪+语速）、环境音效(Foley)、配乐风格
口型语言：6种语言可选

提示词示例

# 电影感场景
低角度英雄式仰拍，一台巨型变形金刚机器人在暴雨中的城市街道变形，金属部件旋转展开，火花飞溅，烟雾弥漫。背景是摩天大楼和霓虹招牌，镜头光晕穿过雨水。港风电影风格，16:9，10秒。

# 动画风格
粘土定格动画风格，一辆红色蒸汽火车穿过苏格兰高地的暮色，车窗透出温暖灯光，烟囱冒出蓬松白烟。镜头从火车侧面缓慢跟拍，远处是连绵山丘。轻快的管弦配乐，5秒，16:9。

# 图生视频
上传一张产品的白底图 → 描述：相机360度环绕产品旋转，柔和工作室灯光，浅景深，5秒。

# 音画同步（含对白）
一位年轻女性在咖啡馆窗边，转头对镜头微笑。台词："你终于来了。"（中文，轻松语气）。环境音：咖啡机运转声、轻柔的爵士背景音乐。大光圈中近景，5秒，9:16。

擅长领域

音画同步内容：短视频、广告、影视对白场景（业界唯一原生音画联合生成）
多镜头叙事：自动分镜编排
中文创作：中文理解与人物一致性突出
开源+商用：完全开源可商用，适合企业二次开发
多模态输入：支持5+种输入模态（文本/图片/视频片段/音频/蒙版）

生态接入

阿里云百炼平台：2026年4月30日开放API
千问App：灰度测试中
官方网站：happyhorse.cn
开源仓库：GitHub/HuggingFace开源权重

视频模型选择总表

| 需求场景 | 首选 | 次选 | |----------|------|------| | 品牌广告/电影级 | Seedance 2.0 | Veo 3.1 | | 物理运动/写实人物 | Kling 3.0 | Seedance 2.0 | | 电影感/氛围 | Sora 2 | Seedance 2.0 | | 连贯多镜头/角色一致 | Runway Gen-4 / Vidu | Luma (Keyframe) | | 风格化/动画 | Pika 2.0 | Kling 3.0 | | 音画同步/配乐视频 | Hailuo 3.0 | Veo 3.1 | | 音画同步/角色对话 | Veo 3.1 | Wan 2.7 | | 多镜头叙事 | Wan 2.7 | Kling 3.0 (Multi-shot) | | Keyframe精确转场 | Luma v3 | Runway Gen-4 | | 中文用户/低门槛 | 即梦AI (Seedance) | Kling 3.0 | | 开发者/API调用 | 通义万相 Wan | Kling 3.0 | | 多模型切换/性价比 | Hailuo 3.0 | — | | 角色多镜头一致 | Vidu | Runway Gen-4 | | 低成本快速测试 | Seedance 1.5 | Pika 2.0 / Hailuo (720p 5s) | | 低成本快速测试 | Seedance 1.5 | Pika 2.0 |

第三部分：跨模型提示词转换

转换逻辑

当用户有一个模型的提示词，需要转换到另一个模型时：

生图模型转换

| 从 | 到 | 主要变化 | |----|----|----------| | Midjourney | DALL-E 3 | 拆逗号为完整句子，去掉所有参数 | | Midjourney | SD | 加质量标签开头，补全套负面提示词 | | Midjourney | Flux | 去参数，加摄影术语/相机参数 | | Midjourney | 即梦AI | 翻译为中文，去掉--参数，改为自然语言描述 | | DALL-E 3 | Midjourney | 压缩为词组，加--参数标签 | | SD | Flux | 去括号权重，加摄影术语 | | SD | 即梦AI | 去括号权重和负面提示词字段，翻译为中文 | | 即梦AI | Midjourney | 翻译为英文，拆为逗号分隔词组，加--参数 | | 即梦AI | Flux | 翻译为英文，加相机/摄影术语 |

生视频模型转换

| 从 | 到 | 主要变化 | |----|----|----------| | Seedance | Kling | 改用SCALE框架，动作加时间线 | | Seedance | Sora | 加明确时长节奏，加技术镜头参数 | | Seedance | Runway | 缩短prompt，配合参考图 | | Seedance | Veo | 加对话/音频描述 | | Seedance | Wan | 改用多镜头+声音公式 | | Kling | Seedance | 改用6要素公式，压缩为单镜头 | | Kling | Wan | 保持Multi-shot结构，加Cut to + 时间戳 | | Kling | Hailuo | 加音乐提示词描述 | | Wan | Hailuo | 保持多镜头，加Music Prompt字段 | | 即梦Seedance | Vidu | 加主体一致性描述，@调用主体 |

转换示例

Seedance → Kling 3.0

# 原始（Seedance）
Close-up tracking shot, a ceramic coffee cup on a walnut desk, steam rising slowly while morning light moves across the surface, cozy apartment kitchen at sunrise, subtle dolly forward, soft golden window light, realistic cinematic style, 16:9

# 转换（Kling 3.0 SCALE）
Slow dolly push-in through a cozy apartment kitchen at sunrise. A ceramic coffee cup rests on a walnut desk, its surface catching the first rays of morning. Steam rises from the cup in gentle wisps, curling upward and slowly dissipating. Golden window light sweeps across the desk surface from left to right, revealing the wood grain. Shot on 35mm film, warm amber tones, shallow depth of field, 16:9.

第四部分：提示词诊断与优化

常见问题速查

分场景负面提示词速查表

| 场景 | Negative Prompt（必加约束） | |------|---------------------------| | 电商/产品 | no logo distortion, no text artifacts, no packaging collapse, no duplicate product, no label blur, no warped glass | | 人物/UGC | no extra fingers, no face drift, no lip mismatch, no background warping, no hand deformation, no eye drift | | 电影感镜头 | no shaky camera, no object melting, no random text, no muddy lighting, no flat blacks | | 通用视频 | no morphing faces, no extra limbs, no unnatural physics, no flickering, no watermark, no text overlay | | 全景/风光 | no inconsistent lighting, no object pop-in, no frame judder, no compression artifacts |

视频提示词验证清单（4问）

合格提示词必须能立刻回答：

观众第一眼应该看到什么？（主体识别）
镜头在做什么？（运镜明确）
画面属于什么视觉气质？（风格清晰）
哪些错误绝不能出现？（负向约束到位）

如果任何一个问题答不清楚，prompt就还没写好。

三大黄金法则（防翻车）

只描述一个镜头：一个prompt = 一个连贯视觉事件，不要塞多个镜头
只给一个主运镜：先选主导运镜，稳定后再加复杂度
主动保护脆弱元素：label可读性/手部结构/脸部身份/几何形态/透明材质 → 必须写进负向提示词

提示词评分标准

好的提示词满足：

清晰的主体 — 谁/什么，具体视觉细节
明确的动作 — 什么在运动，怎么运动
具体的环境 — 地点/时间/天气
专业的镜头 — 景别+构图+运动
精确的光线 — 光源位置+色温+强度
一致的风格 — 电影感/写实/动画

第五部分：进阶技法

5.1 渐进式澄清交互流程

用户输入简短创意
→ Step 1: 确认时长（4-8s / 9-12s / 13-15s / >15s）
→ Step 2: 确认画幅（16:9 / 9:16 / 1:1）
→ Step 3: 确认参考素材（纯文本 / +图片 / +视频 / 全多模态）
→ Step 4: 确认风格偏好（情绪/镜头风格/用途）
→ Step 5: 生成2-3个风格变体，每变体含EN+ZH

原则：分2-3轮提问降低认知负荷。用户已含参数时跳过对应步骤。

5.2 时间戳分镜脚本（13-15秒必用）

[技术前言] 竖屏 9:16 24fps 15秒 [风格论]

0–3s:  [画面描述] + [镜头运动] + [音效]
4–8s:  [画面描述] + [镜头运动] + [音效/对话]
9–12s: [画面描述] + [镜头运动] + [音效/对话]
13–15s: [画面描述] + [镜头运动] + [音效]

5.3 分段扩展（>15秒长视频）

| 总时长 | 分段数 | 方案 | |--------|--------|------| | 16–30秒 | 2段 | 每段13-15秒 | | 31–45秒 | 3段 | 每段10-15秒 | | 46–60秒 | 4段 | 每段12-15秒 |

核心规则：N段结束帧 = N+1段开始帧。第一段正常生成，后续段扩展。

5.4 高级运镜组合

| 组合 | 技术 | 场景 | |------|------|------| | Dolly Zoom | 拉远+变焦推近 | 惊慌/悬疑 | | Arc Track | 跟拍+环绕 | 动态主体 | | Crane Pan | 上升+摇摄 | 宏大揭示 | | Push-In Tilt | 前推+上摇 | 戏剧揭示 | | Whip-pan | 快速横摇转场 | 节奏切换 | | Orbital Quick-cut | 环绕快切 | 动作展示 |

5.5 分层复杂度格式

[ESTABLISHING] 无人机升空穿越晨雾森林，揭示古庙
[CAMERA] 平滑摇臂上升→前推轨
[LIGHTING] 黄金时刻+体积雾，光线穿透树冠
[MOTION] 鸟群四散，雾气环绕塔尖旋转
[STYLE] 史诗奇幻电影风格，Peter Jackson美学，变形宽银幕
[FOCUS] 焦点从森林地面转移到庙顶
[COLOR] 深绿→暖金，神秘氛围

可用标签：[SUBJECT] [ACTION] [CAMERA] [LIGHTING] [MOTION] [STYLE] [FOCUS] [COLOR] [SFX] [DIALOGUE] [CONSTRAINTS]

5.6 运动强度分级

| 强度 | 关键词 | 场景 | |------|--------|------| | 微妙 | gentle, slow, slight, barely | 产品/氛围/人像 | | 适中 | 默认自然描述 | 大多数场景 | | 动态 | rapid, energetic, dramatic | 运动/动作/追逐 | | 极强 | explosive, frenetic | 战斗/爆炸（慎用） |

5.7 深度分层

前景：飘落的花瓣，大光圈虚化
中景：女主角转身面对镜头（主体）
背景：远处富士山和日落云层

5.8 模式决策逻辑

纯文本生成 → 出现"同一角色变形" → 切图生视频（上传角色参考图）
图生视频 → 出现"动作不自然" → 切参考生视频（上传动作参考视频）
参考生视频 → 出现"死板缺创意" → 回纯文本（降低参考权重）

信号词触发：prompt中频繁出现 same face/bottle/outfit/shape → 立即切换模式。

5.9 双语双通道输出标准

**方案1 — [风格名]**

EN: [完整英文提示词]
ZH: `[可直接粘贴的中文提示词]`

参考素材：[首帧图/末帧图]

中文必须即拷即用、自然流畅。@ 标记在两种语言中均用英文。

第六部分：工作流模板

工作流1：从零到优质视频

获取主题 → 2. 渐进式确认参数(时长/画幅/素材/风格)
生成2-3风格变体 → 4. 低分辨率测试(3-4s)
单变量迭代 → 6. 全长高分辨率生成

工作流2：品牌一致性

建风格参考库(3-5图) → 2. MJ用--sref固化
所有视频重复相同视觉风格词 → 4. 光线/色调/氛围/画质四要素一致

工作流3：跨平台适配

YouTube 16:9 → Seedance 2.0/Veo 3.1 TikTok 9:16 → Kling 3.0/Seedance 2.0 Instagram 1:1 → Midjourney/Flux Instagram Reels → Pika 2.0/Kling 3.0

工作流4：长视频（>15秒）

按叙事节拍分割≤15秒段落 → 2. 确定交接帧
第一段生成→后续段扩展 → 4. 统一光线/风格/角色 → 5. 后期拼接

工作流5：故事板分镜（高级）

写8-15个编号分镜 → 2. 用NanoBananaPro/GPTImage2生成长幅故事板
指定网格(如15格3x5) → 4. 故事板作为参考图 → 5. 同prompt生成多镜头视频

使用指南（v2.0）

Agent执行流程

意图识别：图片还是视频？用途？平台？
模型推荐：基于需求推荐最佳1-2个
渐进式澄清：视频任务必须分步：时长→画幅→素材→风格
多方案生成：2-3个变体，每个含EN解析+ZH即拷
4问自检验证
提供迭代路径

输出格式（v2.0）

## 模型推荐：[模型名] | 理由：[一句话]

### 方案1 — [风格名称]
EN: [完整英文提示词]
ZH: `[即拷中文提示词]`
为什么：镜头[解释] | 光线[解释] | 动作[解释] | 约束[解释]

### 方案2 — [不同风格]
...

### 优化路径
1. 如果[问题]→调整[建议]
2. 可尝试[模型2]获得[不同效果]

Agent行为准则

✅ 视频任务必须走渐进式澄清流程
✅ 13-15秒强烈推荐时间戳分镜
✅ >15秒必须提供分段扩展方案
✅ 中文提示词必须即拷即用
✅ 输出前用4问清单自检
✅ 主动告知平台限制
❌ 不要把视频prompt写成图像prompt
❌ 不要一次性丢所有问题给用户

版本 2.1.0 | 2026-05-28 | 覆盖30+模型 | 新增：任务类型框架、主体定义方法、特殊字符规范、10种高频问题解决方案

牛马提示词

niuma-prompt — 多模态模型提示词工程专家

概述

第一部分：生图模型 (Text-to-Image)

1. Midjourney (V7/V8.1)

提示词结构（四部分公式）

核心原则

关键参数速查

V7 vs V8.1 差异

迭代工作流

照片级真实感配方

示例模板

2. DALL-E 3

提示词结构

核心原则

示例

擅长领域

3. Stable Diffusion (SDXL/SD3)

提示词结构

核心原则

关键参数

示例

擅长领域

4. Flux Pro / Flux

提示词结构

核心原则

示例

擅长领域

四大生图模型选择指南

5. 即梦AI 4.0 (Jimeng / Seedream)

提示词结构（万能公式）

生图公式

指令关键词速查

风格维度参数

多图玩法

核心原则

问题排查

示例

6. 通义万相 (Tongyi Wanxiang) — 生图能力

生图提示词公式

核心原则

示例

擅长领域

7. 可灵 (Kling) — 生图能力

生图提示词公式

生图 vs 生视频提示词差异

示例

8. 文心一格 (Wenxin Yige)

提示词公式

核心原则

示例

擅长领域

9. 智谱清言 CogView (Zhipu)

提示词公式

核心原则

示例

10. 腾讯混元 HY (Tencent Hunyuan) — 全模态家族

模型矩阵

A. 混元生图3.0 (HY-Image-V3.0)

提示词公式

核心原则

示例

擅长领域

B. 混元视频生成 (HunyuanVideo 1.5)

核心参数

提示词改写双模式（独有技术）

提示词公式

示例

图生视频 (HunyuanVideo-I2V)

C. 混元多模态理解

D. 生态集成

11. GPT Image 2 (OpenAI)

核心能力

提示词结构

核心原则

多轮编辑示例

擅长领域

示例

12. Nano Banana Pro (Google)

五元素提示词公式