用可灵、Veo、Seedance 做 AI UGC 广告（产品图生视频）

AI 视频的日常生产场景

文生视频、图生视频已是效果广告创意的常规产能。海外 DTC 与代理团队用 可灵 3.0 做多镜头与口播 AI UGC 广告，用 Veo 3.1 做带原生音效的电影感片段，用 Seedance 2.0 做音素级口播。当 SKU 保真重要时，胜出模式是 产品图生视频：先批准 AI 产品摄影静帧，再图生视频——而不是用纯文生视频凭空发明产品。

PixelPrompt 支持先优化结构化提示词再生成，把积分花在能过钩子测试的片段上。

端到端视频工作流

1. 明确交付物

场景	常见格式	重点
付费信息流	9:16，3–10 秒	产品主体清晰，预留 CTA 区域
自然流短视频	9:16，5–15 秒	前 1 秒有钩子
产品演示	16:9 或 1:1	慢镜头、标签可读
品牌氛围	16:9	氛围、缓慢漂移、可用原生音效

2. 选定画幅与时长

先做 3–5 秒短版，确认构图和运动，再延长或拼接。

3. 撰写并优化提示词

正式投放建议走提示词优化出 3 个版本对比。

4. 生成、检查、迭代

关注主体稳定、运动平滑、标签是否融化、光线是否符合品牌。

5. 沉淀模板并批量

记录提示词 + 画幅 + 时长 + 模型，SKU 变体直接复用。

高质量视频提示词结构

主体 + 场景 + 镜头运动 + 光线 + 风格 + 节奏/时长

产品广告示例：

护肤精华瓶摆在大理石台面，镜头缓慢推进，暖色影棚光，极简高级广告风，运动平滑，约 5 秒

多镜头分镜（可灵 O3）

叙事型广告建议按镜头拆 prompt，而不是一段写完：

镜头	时长	提示词重点
钩子	1–2 秒	大特写、强运动或 reveal
产品 hero	2–3 秒	慢推、标签可读、构图稳定
生活场景	2–3 秒	手持、环境、UGC 感
CTA 帧	1–2 秒	产品居中，下方留 CTA 叠字区

各镜头独立生成后剪辑拼接。各镜复用同一套光线词汇，序列才 cohesive。

口播同步与数字人提示词

对白驱动的 UGC 或带货数字人：

先在直聊模式定脚本 — 控制语气与句长（短句同步更好）
优化时在 prompt 里引号写对白 — 如：「这改变了我的晨间习惯，」她温暖地说。
构图留脸或留产品 — 口播用胸以上；保健品广告可产品在手
首条 clip 控制在 5 秒内 — 确认口型再延长

即梦、可灵 2.6+ 在镜头运动 modest（轻微 handheld，非快摇）时对引号对白表现更好。

Veo 3.1 原生音频

Veo 可生成与画面匹配的环境音。在 prompt 里单独写音频 mood：

雨夜城市街道，霓虹倒影，缓慢 tracking 镜头，环境音为雨声与远处车流，电影感，8 秒

避免指定有版权的音乐；描述环境质感即可（咖啡馆人声、海浪、影棚安静）。

模型选型参考

需求	常见选择	原因
口播/对白同步	可灵 2.6+	引号对白与口型同步较强
较长电影感 + 环境音	Veo 3.1	场景一致性与原生音效
大批量社媒、成本敏感	可灵 3.0	单条成本友好，支持 4K

在 PixelPrompt 内按 brief 选模型；频繁换模型不如先把提示词写稳。

模型选型决策树

不确定用哪个视频模型时，prompt 结构类似，侧重点不同：

画面里需要口型/对白？
├─ 是 → 可灵 2.6+ 或即梦 Seedance（引号对白 +  modest 镜头）
└─ 否 → 需要原生环境音？
    ├─ 是 → Veo 3.1（音频 mood 单独写）
    └─ 否 → 多镜头且角色要一致？
        ├─ 是 → 可灵 O3（每镜一条 prompt，光线词统一）
        └─ 否 → 仅产品静帧加微动？
            └─ 图生视频（先小运动）

长片拼接思路

单次生成通常仍限制在约 5–15 秒。做 30 秒广告：

纸上分 4–6 镜（钩子 → 产品 → 证明 → CTA）
各镜共用同一套风格词（同一光线短语、同一「手持 UGC」或「滑轨」）
在剪辑软件拼接——不要一条 prompt 写「包含 4 个场景」
若支持续写/remix，可从上一段 clip 的 ID 延续

音频描述速查（Veo / 可灵）

场景	音频怎么写	避免
产品桌拍	`轻微 room tone，陶瓷轻碰`	指定流行歌名
雨夜街景	`远处车流、雨打路面`	有版权 BGM
UGC 厨房	`冰箱低频、室内生活感`	过长歌词描述
影棚产品	`干净静音、产品触碰轻 foley`	「史诗预告片音乐」

PixelPrompt 推荐参数

交付物	画幅	首条时长	参考图
TikTok / Reels 广告	9:16	5 秒试片	AI 图片出的产品静帧
Amazon 产品演示	1:1 或 16:9	5–10 秒	清晰 packshot
口播 UGC	9:16	3–5 秒	可选人脸参考
品牌 mood	16:9	8 秒	可选 mood board

静帧定稿后再优化运动 prompt——见先优化再生成。

产品图生视频流水线（电商 UGC）

已有 packshot 的 Amazon / Shopify 品牌，默认走这条路径：

锁定静帧 — 白底或手持产品，来自电商产品图优化；标签需通过约 480p 可读检查
只写运动 — 不要重新描述新场景；写什么在动（gentle steam、slow push-in、subtle handheld）
优化运动提示词 — 三个变体只差镜头速度/氛围，不改产品身份
先生成 ≤5 秒测试片 — 过 3 秒完播再延长
分叉钩子、保留正文 — 同一产品正文 + 五种开场角度（见下）

值得测试的钩子角度（付费社媒）

钩子角度	开场落点	提示词线索
痛点	SKU 解决的挫败感	问题特写 → 产品入画
好奇心缺口	意外主张或细节	极端微距，停 1 秒再揭示
社会证明	结果 / 人群 / 「大家都换了」	手 + 产品，平静 UGC 构图
开箱 / 演示	可感知互动	手持产品，慢转，标签可读
对比	旧方式 vs 这个	分叉光影；单一产品主角

写五个不同角度，而不是同一句话改五个说法。每个钩子要有足够花费才能读出信号——只铺广度不投预算等于噪音。

图生视频要点

静帧要清晰——上游糊了，运动只会更糊
先小运动，再大动作
锁构图：产品始终居中、标签保持可读
静帧若来自先优化再生成，视频 prompt 复用同一套光线词
口播 UGC 镜头要克制；大幅摇镜会拖累唇形同步

多模态参考输入（2026 生产向）

当人物或产品必须与 approved 静帧一致时，纯文生视频往往不如 「参考图 + 结构化运动描述」 稳。2026 年主流工作流（可灵 O3、即梦 Seedance 等）支持在一条请求里组合多张参考——团队通常这样用：

输入类型	典型用途	prompt 写法要点
产品静帧	图生视频微动	`与参考图相同构图，轻微蒸汽，标签保持可读`
人脸参考	口播 UGC	`与参考图为同一人，胸以上景别， modest handheld`
mood 参考	品牌氛围片	`匹配参考图调色与光线方向，缓慢推镜`
分镜上一段	多镜串联	复用同一套光线短语，只改主体动作

实操顺序：

在 AI 图片用先优化再生成定稿静帧
把静帧上传至 AI 视频，运动 prompt 只描述变化（镜头、蒸汽、手势），不重新发明场景
首条 clip 5 秒内、运动 modest；通过后再延长或拼接下一镜

这与电商团队「packshot 定稿 → 微动广告」的路径一致——见电商产品图优化。

常见问题与修复

现象	可能原因	处理
主体变形	运动幅度过大	减弱镜头描述；缩短时长
包装文字融化	模型重绘标签	换更干净静帧；加「保持标签」
口型漂移	对白过长或过快	缩短台词；减少镜头运动

上线前检查清单

社媒前 1 秒有视觉钩子
480p 宽度下产品/ Logo 仍可辨认
提示词已存档（含模型与时长）

场景	常见格式	重点
付费信息流	9:16，3–10 秒	产品主体清晰，预留 CTA 区域
自然流短视频	9:16，5–15 秒	前 1 秒有钩子
产品演示	16:9 或 1:1	慢镜头、标签可读
品牌氛围	16:9	氛围、缓慢漂移、可用原生音效