返回 Skill 列表
extension
分类: 其它需要 API Key

Input prompts and generate images, videos, effects, speech synthesis, voice cloning, etc., using a single API key.

Vidu AI 提供视频、图片、音频生成,包括文生视频、图生视频、参考生视频、图片生成、TTS语音合成及声音复刻。对话式调用,自动识别意图。

person作者: x-jihuahubclawhub

Vidu Generation 🎬

Vidu AI 视频/图片/音频生成工具。

环境说明

变量说明

  • {baseDir} - 运行时自动替换为本 skill 目录的绝对路径
    • 实际路径:~/.openclaw/workspace/skills/vidu-generation/

环境变量

  • VIDU_API_KEY - Vidu API 密钥(必需)
  • 获取方式:https://platform.vidu.cn 或 https://platform.vidu.com

快速开始

直接告诉我你想生成什么,我会自动识别并调用合适的接口:

"生成一只猫咪在阳光下打哈欠的视频"
"把这个图片变成视频,让人物转头微笑"
"生成一张可爱的橘猫图片"
"用这两张图生成一个合照视频"
"用少女音配音这段文字:大家好..."

支持的生成类型

🎥 视频生成

| 类型 | 触发条件 | 说明 | |------|----------|------| | 文生视频 | 纯文字描述 | 从文字生成视频 | | 图生视频 | 提供图片 + 描述 | 图片作为首帧生成视频 | | 参考生视频 | 多张图片 | 多人/多主体视频 | | 首尾帧视频 | 提供首帧+尾帧图片 | 过渡动画视频 | | 场景特效 | 特效关键词(拥抱、特效等) | 预设特效模板 |

🖼️ 图片生成

| 类型 | 触发条件 | 说明 | |------|----------|------| | 文生图 | 纯文字描述 | 从文字生成图片 | | 参考生图 | 提供参考图片 | 根据参考风格生成 |

🔊 音频生成

| 类型 | 触发条件 | 说明 | |------|----------|------| | TTS语音合成 | "配音"、"朗读"、语音描述 | 文字转语音 | | 声音复刻 | "复刻声音"、"克隆音色" | 根据音频复刻音色 |

自动识别规则

视频生成

用户输入 → 意图识别
─────────────────────────────
纯文字描述 → 文生视频 (text2video)
单张图片 + 描述 → 图生视频 (img2video)
多张图片 → 参考生视频 (ref2video)
首帧 + 尾帧 → 首尾帧视频 (start-end2video)
特效关键词 → 场景特效 (template)

图片生成

用户输入 → 意图识别
─────────────────────────────
"生成图片/图" → 图片生成模式
纯文字 → 文生图
参考图片 → 参考生图

音频生成

用户输入 → 意图识别
─────────────────────────────
"配音" + 文本 → TTS语音合成
"复刻声音" + 音频 → 声音复刻

TTS 语音合成

自动音色推荐

根据内容场景自动选择合适音色:

| 场景 | 推荐音色 | Voice ID | |------|----------|----------| | 小红书/短视频(女) | 少女音色 | female-shaonv | | 小红书/短视频(男) | 精英青年 | male-qn-jingying | | 教程/科普 | 播报男声 | Chinese (Mandarin)_Male_Announcer | | 情感/故事 | 御姐音色 | female-yujie | | 商务/产品 | 沉稳高管 | Chinese (Mandarin)_Reliable_Executive | | 可爱/萌系 | 萌萌女童 | lovely_girl | | 搞笑/轻松 | 搞笑大爷 | Chinese (Mandarin)_Humorous_Elder | | 温馨/治愈 | 温暖少女 | Chinese (Mandarin)_Warm_Girl | | 甜美风格 | 甜美女声 | Chinese (Mandarin)_Sweet_Lady | | 专业主持 | 新闻女声 | Chinese (Mandarin)_News_Anchor | | 英文内容 | 男声 | English_Trustworthy_Man | | 英文内容 | 女声 | English_Graceful_Lady | | 日文内容 | 男声 | Japanese_GentleButler | | 日文内容 | 女声 | Japanese_KindLady | | 韩文内容 | 女声 | Korean_SweetGirl | | 韩文内容 | 男声 | Korean_CheerfulBoyfriend |

使用示例

用户: 用少女音配音这段话:大家好,欢迎来到我的频道
→ 自动选择 female-shaonv
→ 生成音频文件

用户: 用播报男声朗读这段教程内容
→ 自动选择 Chinese (Mandarin)_Male_Announcer

用户: 英文配音:Hello, welcome to my channel
→ 自动选择 English_Trustworthy_Man

停顿控制

使用 <#x#> 标记控制停顿(x为秒数):

你好<#2#>我是vidu<#1#>很高兴见到你

参数说明

| 参数 | 范围 | 默认值 | 说明 | |------|------|--------|------| | speed | 0.5-2.0 | 1.0 | 语速 | | volume | 0-10 | 0 | 音量 | | pitch | -12~12 | 0 | 语调 | | emotion | happy/sad/angry/fearful/disgusted/surprised/calm | - | 情绪 |

声音复刻

根据音频样本复刻音色,用于后续TTS。

使用示例

用户: 帮我复刻这个音频的声音
[发送音频文件]
→ 创建自定义音色
→ 返回 voice_id 供后续使用

要求

  • 原音频时长:10秒-5分钟
  • 音频清晰,无背景噪音
  • 复刻音色为临时音色,7天内需在TTS中调用才能永久保留

API 调用

python3 {baseDir}/scripts/vidu_cli.py voice-clone \
  --audio-url sample.mp3 \
  --voice-id my_voice_001 \
  --text "这是复刻的声音样例"

模型选择策略

文生视频模型

| 模型 | 时长范围 | 分辨率 | 特点 | |------|----------|--------|------| | viduq3-pro-fast | 默认5秒,可选1-16秒 | 默认720p,可选720p/1080p | 支持音画同步,支持视频分镜,效果对标viduq3-pro,生成速度更快 | | viduq3-turbo | 默认5秒,可选1-16秒 | 默认720p,可选540p/720p/1080p | 支持音画同步,支持视频分镜,生成速度更快 | | viduq3-pro | 默认5秒,可选1-16秒 | 默认720p,可选540p/720p/1080p | 支持音画同步,支持视频分镜,效果更好 | | viduq2 | 默认5秒,可选1-10秒 | 默认720p,可选540p/720p/1080p | 最新模型,情绪表达强,细节更丰富 | | viduq1 | 固定5秒 | 固定1080p | 画面清晰,平滑转场,运镜稳定 |

视频模型(自动推荐)

| 场景 | 模型 | 理由 | |------|------|------| | 默认视频 | viduq3-pro | 最新模型,质量最高 | | 快速生成 | viduq3-turbo | 速度快 |

图生视频模型

必须输入1张图片

| 模型 | 时长范围 | 分辨率 | 特点 | |------|----------|--------|------| | viduq3-pro-fast | 默认5秒,可选1-16秒 | 默认720p,可选720p/1080p | 支持音画同步,支持生成分镜视频,效果对标viduq3-pro,生成速度最快 | | viduq3-turbo | 默认5秒,可选1-16秒 | 默认720p,可选540p/720p/1080p | 支持音画同步,支持生成分镜视频,生成速度更快 | | viduq3-pro | 默认5秒,可选1-16秒 | 默认720p,可选540p/720p/1080p | 支持音画同步,支持生成分镜视频,效果更好 | | viduq2-pro-fast | 默认5秒,可选1-10秒 | 默认720p,可选720p/1080p | 价格触底、效果好,生成速度在q2-turbo基础上提升2-3倍 | | viduq2-pro | 默认5秒,可选1-10秒 | 默认720p,可选540p/720p/1080p | 新模型,情感表达强,动态细节丰富 | | viduq2-turbo | 默认5秒,可选1-10秒 | 默认720p,可选540p/720p/1080p | 新模型,效果好,生成快 | | viduq1 | 固定5秒 | 固定1080p | 画面清晰,平滑转场,运镜稳定 | | viduq1-classic | 固定5秒 | 固定1080p | 画面清晰,转场、运镜更丰富 | | vidu2.0 | 默认4秒,可选4/8秒 | 4秒:默认360p,可选360p/720p/1080p<br>8秒:默认720p,可选720p | 生成速度快 |

参考生视频模型

| 模型 | 图片上限 | 时长范围 | 分辨率 | 特点 | |------|----------|----------|--------|------| | viduq3-beta | 5张 | 3-10秒 | 默认720p,可选540p/720p/1080p | 默认,最新模型,支持音画同出,智能切镜 | | viduq3 | 7张 | 3-16秒 | 默认720p,可选540p/720p/1080p | 多人场景,智能切镜,支持更多图片 | | viduq2-pro | 7张 | 1-10秒* | 默认720p,可选540p/720p/1080p | 支持参考视频,支持视频编辑,视频替换 | | viduq2 | 7张 | 1-10秒 | 默认720p,可选540p/720p/1080p | 动态效果好,生成细节丰富 | | viduq1 | 7张 | 5秒 | 固定1080p | 画面清晰,平滑转场,运镜稳定 | | vidu2.0 | 7张 | 4秒 | 默认360p,可选360p/720p | 生成速度快 |

*viduq2-pro:输入视频时若未指定时长,duration=0 表示智能指定时长

首尾帧视频模型

必须输入2张图片(首帧+尾帧)

| 模型 | 时长范围 | 分辨率 | 特点 | |------|----------|--------|------| | viduq3-pro-fast | 默认5秒,可选1-16秒 | 默认720p,可选720p/1080p | 支持音画同步,支持生成分镜视频,效果对标viduq3-pro,生成速度最快 | | viduq3-turbo | 默认5秒,可选1-16秒 | 默认720p,可选540p/720p/1080p | 支持音画同步,支持生成分镜视频,生成速度更快 | | viduq3-pro | 默认5秒,可选1-16秒 | 默认720p,可选540p/720p/1080p | 支持音画同步,支持生成分镜视频,效果更好 | | viduq2-pro-fast | 默认5秒,可选1-10秒 | 默认720p,可选720p/1080p | 价格触底、效果好,生成速度在q2-turbo基础上提升2-3倍 | | viduq2-pro | 默认5秒,可选1-10秒 | 默认720p,可选540p/720p/1080p | 新模型,效果好,细节丰富 | | viduq2-turbo | 默认5秒,可选1-10秒 | 默认720p,可选540p/720p/1080p | 新模型,效果好,生成快 | | viduq1 | 固定5秒 | 固定1080p | 画面清晰,平滑转场,运镜稳定 | | viduq1-classic | 固定5秒 | 固定1080p | 画面清晰,转场、运镜更丰富 | | vidu2.0 | 默认4秒,可选4/8秒 | 4秒:默认360p,可选360p/720p/1080p<br>8秒:默认720p,可选720p | 生成速度快 |

图片模型

Nano 生图模型(推荐)

| 模型 | 分辨率 | 速度 | 质量 | 参考图 | 特殊比例 | |------|--------|------|------|--------|---------| | q3-fast | 1K/2K/4K | 快 | 高 | 0-14张(可选) | ✅ 1:4, 4:1, 1:8, 8:1 | | q2-fast | 1K | 最快 | 中 | 0-14张(可选) | ❌ | | q2-pro | 1K/2K/4K | 慢 | 最高 | 0-14张(可选) | ❌ |

特点

  • ✅ 支持文生图(不输入参考图)
  • ✅ 支持参考生图(输入参考图)
  • ✅ q3-fast 支持特殊比例(1:4、4:1、1:8、8:1)

Vidu 参考生图模型

| 模型 | 分辨率 | 参考图要求 | 说明 | |------|--------|-----------|------| | viduq2 | 540p/720p/1080p | 0-7张 | 支持文生图、参考生图、图片编辑 | | viduq1 | 1080p | 1-7张(必填) | 仅支持参考生图 |

viduq2 图片编辑功能

  • ✅ 支持局部重绘、扩图等编辑功能
  • ⚠️ 使用图片编辑时,aspect_ratio 必须设为 auto
  • 示例:"aspect_ratio": "auto"

特点

  • viduq2:支持文生图、参考生图、图片编辑
  • viduq1:必须输入至少 1 张参考图(仅参考生图)

场景推荐

| 场景 | 模型 | 理由 | |------|------|------| | 默认 | q3-fast | 最新模型,速度快,支持特殊比例 | | 高画质 | q2-pro | 效果最好 | | 快速生成 | q2-fast | 速度最快 | | 参考生图 | viduq2 | 支持文生图和参考生图 |

时长与分辨率默认值

视频时长:5秒
视频分辨率:720p
视频比例:16:9
图片分辨率:2K
图片比例:16:9

API 调用

内部使用 Python CLI 工具:

# 文生视频
python3 {baseDir}/scripts/vidu_cli.py text2video --prompt "视频描述"

# 图生视频
python3 {baseDir}/scripts/vidu_cli.py img2video --image photo.jpg --prompt "描述"

# 参考生视频
python3 {baseDir}/scripts/vidu_cli.py ref2video --images img1.jpg img2.jpg --prompt "描述"

# 图片生成
python3 {baseDir}/scripts/vidu_cli.py nano-image --prompt "图片描述"

# TTS语音合成
python3 {baseDir}/scripts/vidu_cli.py tts --text "配音文本" --voice-id "female-shaonv"

# 声音复刻
python3 {baseDir}/scripts/vidu_cli.py voice-clone --audio-url sample.mp3 --voice-id my_voice

# 查询任务状态
python3 {baseDir}/scripts/vidu_cli.py status <task_id> --wait --download ./uploads

输出规范

  1. 下载目录: {baseDir}/uploads/
  2. 返回格式: Markdown 格式引用文件
  3. 视频链接: 必须返回 Vidu API 的 creations[0].url 字段

环境配置

必需环境变量:

VIDU_API_KEY=your_api_key_here

获取 API Key:

  • Vidu 官方开放平台:https://platform.vidu.cn 或 https://platform.vidu.com
  • 注册账号后在「API Keys」页面创建

API 域名选择

重要规则:根据用户语言自动选择 API 域名

| 用户语言 | API 域名 | 说明 | |---------|---------|------| | 简体中文 | api.vidu.cn | 国内用户(默认) | | 其他语言 | api.vidu.com | 海外用户 |

Base URL 配置

# 简体中文用户
BASE_URL = "https://api.vidu.cn/ent/v2"

# 非简体中文用户(英文、日文、韩文等)
BASE_URL = "https://api.vidu.com/ent/v2"

判断逻辑

  • 用户使用简体中文 → 使用 api.vidu.cn
  • 用户使用其他语言(英文、日文、韩文等) → 使用 api.vidu.com

错误处理

| 错误 | 原因 | 解决方案 | |------|------|----------| | Invalid API key | API密钥错误 | 检查 VIDU_API_KEY 环境变量 | | Image size exceeds | 图片过大 | 压缩至50MB以下 | | Task failed | 生成失败 | 查看 error 信息重试 | | Voice ID not found | 音色不存在 | 检查音色列表或重新复刻 |

References

Rules

  1. API Key 检查: 调用前确认 VIDU_API_KEY 已设置
  2. 异步任务: 视频生成异步进行,需轮询状态
  3. 下载时效: 生成 URL 24小时内有效
  4. 返回视频链接: 必须返回视频 URL 让用户直接访问
  5. 长文本TTS: 文本超过30字符必须使用 --text-file 参数
  6. 音色保留: 复刻音色7天内需使用否则删除