InfiniteTalk小省导购员数字人带货提示词生成
任务目标
- 本技能用于:为InfiniteTalk项目生成小省导购员数字人带货视频的结构化提示词,直接对接模型推理流程
- 能力包含:
- 生成适配InfiniteTalk Image-to-Video模式的分镜化提示词
- 帧级动作时序描述(5s/幕,精确到秒级)
- 音频同步匹配(Suno音乐 + chinese-wav2vec2-base编码)
- 一致性管控(角色/视觉/情绪三大维度)
- 跨工具集成(Suno、AI绘画、InfiniteTalk)
- 触发条件:用户需要生成小省导购员数字人带货视频,使用InfiniteTalk模型进行推理
前置准备
- 依赖说明:本技能基于智能体自然语言能力,无需Python依赖
- 环境准备:
- InfiniteTalk模型环境(已安装,包含chinese-wav2vec2-base编码器)
- TeaCache + int8量化配置(已配置)
- 角色参考图(9:16比例,分辨率≥1080×1920)
操作步骤
标准流程
1. 提示词生成
提示词生成师负责生成适配InfiniteTalk的结构化提示词:
输入信息:
- 场景类型(产品推荐/价格对比/促销活动等)
- 商品信息
- 情绪基调
- 五幕情绪递进
生成流程:
- 读取 references/infinitetalk-parameters.md,确认核心参数配置
- 读取 references/prompt-structure.md,遵循提示词结构规范
- 读取 references/scene-templates-infinitetalk.md,调取场景模板
- 生成五幕提示词,每幕包含:
- 角色固定特征(严格遵循固定描述)
- 动作时序(5s内帧级描述,精确到秒级)
- 场景环境(背景、前景、道具)
- 音频匹配(语音类型+音乐风格+音频对齐规则)
- 光影/氛围(色温、光照类型、情绪基调)
- 技术约束(构图比例、景深、动作强度等)
输出格式:
- 中文提示词(可直接作为InfiniteTalk推理脚本的
prompt参数) - 参数配置表(duration、aspect_ratio、motion_strength、face_consistency等)
2. 质量核查
质量管控师负责核查提示词质量:
核查维度:
-
技术参数匹配度:
- 时长:每幕5s,总时长25s
- 分辨率/比例:1080×1920(9:16竖版)
- 动作连贯性:5s内帧级动作描述流畅
- 角色一致性:严格匹配固定特征描述
-
角色一致性:
- 外貌特征:脸型、眼睛、发型、肤色、唇色
- 服饰描述:上衣、鞋子、配饰
- 气质特征:专业亲和、手部姿态
-
音频匹配性:
- 语音类型:语速、语气与情绪匹配
- 音乐风格:与场景情绪匹配
- 音频对齐:动作节奏与音乐/语音同步
-
光影可实现性:
- 色温:4000K-5500K范围
- 光照类型:侧光、顺光、顶光、逆光
- 光影效果:明暗对比、景深、虚化程度
核查结果:
- 通过(pass):传递给知识库运维师归档
- 不通过(fail):生成问题清单,反馈给提示词生成师调整(最多2次)
3. 知识库归档
知识库运维师负责归档提示词和知识库更新:
归档内容:
- 角色固定特征模板
- 五幕情绪-光影映射表
- 音频风格-动作匹配库
- 场景模板库
归档格式:
- JSON格式(便于程序调用)
- 包含完整元数据(场景类型、情绪基调、参数配置)
4. 跨工具集成
跨环节适配师负责跨工具集成和音频/图片适配:
音频集成:
-
Suno音乐生成:
- 提取情绪关键词,生成音乐风格描述
- 导出为16kHz单声道wav格式
- 确保时长5s/幕,与提示词严格对齐
-
chinese-wav2vec2-base编码:
- 使用chinese-wav2vec2-base对音频进行特征编码
- 生成音频特征文件
-
导购员语音生成:
- 根据每幕情绪调整语速/语气
- 与音乐时长严格对齐(5s/幕)
- 确保唇形同步
图片集成:
-
AI绘画生成:
- 使用AI绘画生成「动作前画面」
- 裁剪为9:16比例,分辨率≥1080×1920
- 保留角色完整特征(无遮挡)
-
参考图适配:
- 作为InfiniteTalk的
init_image参数输入 - 确保角色固定特征与提示词一致
- 作为InfiniteTalk的
InfiniteTalk推理对接:
- 加载模型(基础配置)
- 单幕生成(以第一幕为例)
- 保存视频(5s/幕)
- 五幕拼接(总时长25s)
可选分支
- 当场景类型为产品推荐:执行 references/scene-templates-infinitetalk.md 中的产品推荐场景模板
- 当场景类型为价格对比:执行价格对比场景模板
- 当场景类型为促销活动:执行促销活动场景模板
- 当需要跨工具集成:执行 references/cross-tool-integration.md 中的集成方案
资源索引
- 核心参数配置:见 references/infinitetalk-parameters.md(何时读取:生成提示词前确认参数配置)
- 提示词结构规范:见 references/prompt-structure.md(何时读取:生成提示词时遵循结构规范)
- 场景模板库:见 references/scene-templates-infinitetalk.md(何时读取:根据场景类型调取模板)
- 一致性管控规则:见 references/consistency-rules-infinitetalk.md(何时读取:质量核查时遵循规则)
- 跨工具集成方案:见 references/cross-tool-integration.md(何时读取:跨工具集成时参考方案)
- 完整示例输出:见 assets/examples/sample-prompts-infinitetalk.md(何时读取:参考完整示例)
注意事项
- 严格遵循角色固定特征描述,所有五幕提示词使用相同描述
- 动作时序必须精确到秒级,确保5s内动作连贯
- 音频匹配必须与动作节奏同步,确保唇形同步
- 光影描述必须可实现,色温在4000K-5500K范围内
- 技术约束必须匹配InfiniteTalk能力,确保生成效果
- 充分利用智能体的自然语言能力和分析推理能力,避免为简单任务编写脚本
使用示例
示例1:产品推荐场景提示词生成
功能说明:生成产品推荐场景的五幕提示词
执行方式:提示词生成师(智能体自然语言生成)
关键参数:
- 场景类型:产品推荐
- 情绪基调:热情专业
- 五幕情绪递进:热情神秘→专业详细→专注生动→自信有力→鼓励坚决
- 技术参数:9:16竖屏、5s/幕、1080×1920分辨率
输出:五幕中文提示词、参数配置表
示例2:质量核查
功能说明:核查提示词质量
执行方式:质量管控师(智能体分析推理)
核查维度:技术参数匹配度、角色一致性、音频匹配性、光影可实现性
输出:质检报告(pass/fail)、问题清单(如不通过)
示例3:跨工具集成
功能说明:Suno音乐→InfiniteTalk音频对接
执行方式:跨环节适配师(智能体理解+自然语言指导)
关键步骤:
- Suno生成16kHz单声道wav音频
- chinese-wav2vec2-base编码
- 导购员语音生成(语速/语气匹配情绪)
- InfiniteTalk推理对接
输出:音频编码文件、视频生成结果
四大智能体角色职责
提示词生成师
- 核心职责:按提示词结构输出InfiniteTalk专用提示词
- 输入:场景类型、商品信息、情绪基调
- 输出:分幕提示词文本、参数配置表
- 关键能力:理解InfiniteTalk技术参数、创作帧级动作时序描述
质量管控师
- 核心职责:核查提示词与InfiniteTalk能力匹配度
- 核查维度:动作连贯性、角色一致性、光影可实现性
- 输出:质检报告、提示词修正建议
- 关键能力:分析推理、技术约束匹配度评估
知识库运维师
- 核心职责:归档提示词和知识库更新
- 归档内容:角色固定特征模板、情绪-光影映射表、音频风格-动作匹配库
- 输出:知识库检索接口(JSON格式)
- 关键能力:结构化归档、元数据管理
跨环节适配师
- 核心职责:跨工具集成(Suno、AI绘画、InfiniteTalk)
- 集成步骤:音频适配、图片适配、InfiniteTalk推理对接
- 输出:音频编码文件、视频生成结果
- 关键能力:跨工具理解、格式适配、流程集成
Scan to join WeChat group