如何使用 AI 视频功能生成想要的视频
可灵、Veo、即梦文生视频与图生视频实战:多镜头分镜、口播同步、原生音频,以及带货 UGC 广告的提示词写法。
AI 视频的日常生产场景
文生视频、图生视频已是广告与社媒团队的常规产能。可灵适合多镜头分镜与口播同步 UGC,Veo 适合带原生音效的电影感片段,即梦 Seedance 适合口播级唇形同步的带货数字人。当产品或人物必须跟 approved 静帧一致时,很多团队会走文生图再图生视频流水线。
PixelPrompt 支持先优化结构化提示词再生成,把积分花在符合 brief 的片段上。
端到端视频工作流
1. 明确交付物
| 场景 | 常见格式 | 重点 |
|---|---|---|
| 付费信息流 | 9:16,3–10 秒 | 产品主体清晰,预留 CTA 区域 |
| 自然流短视频 | 9:16,5–15 秒 | 前 1 秒有钩子 |
| 产品演示 | 16:9 或 1:1 | 慢镜头、标签可读 |
| 品牌氛围 | 16:9 | 氛围、缓慢漂移、可用原生音效 |
2. 选定画幅与时长
先做 3–5 秒短版,确认构图和运动,再延长或拼接。
3. 撰写并优化提示词
正式投放建议走 提示词优化 出 3 个版本对比。
4. 生成、检查、迭代
关注主体稳定、运动平滑、标签是否融化、光线是否符合品牌。
5. 沉淀模板并批量
记录提示词 + 画幅 + 时长 + 模型,SKU 变体直接复用。
高质量视频提示词结构
主体 + 场景 + 镜头运动 + 光线 + 风格 + 节奏/时长
产品广告示例:
护肤精华瓶摆在大理石台面,镜头缓慢推进,暖色影棚光,极简高级广告风,运动平滑,约 5 秒
多镜头分镜(可灵 O3)
叙事型广告建议按镜头拆 prompt,而不是一段写完:
| 镜头 | 时长 | 提示词重点 |
|---|---|---|
| 钩子 | 1–2 秒 | 大特写、强运动或 reveal |
| 产品 hero | 2–3 秒 | 慢推、标签可读、构图稳定 |
| 生活场景 | 2–3 秒 | 手持、环境、UGC 感 |
| CTA 帧 | 1–2 秒 | 产品居中,下方留 CTA 叠字区 |
各镜头独立生成后剪辑拼接。各镜复用同一套光线词汇,序列才 cohesive。
口播同步与数字人提示词
对白驱动的 UGC 或带货数字人:
- 先在直聊模式定脚本 — 控制语气与句长(短句同步更好)
- 优化时在 prompt 里引号写对白 — 如:
「这改变了我的晨间习惯,」她温暖地说。 - 构图留脸或留产品 — 口播用胸以上;保健品广告可产品在手
- 首条 clip 控制在 5 秒内 — 确认口型再延长
即梦、可灵 2.6+ 在镜头运动 modest(轻微 handheld,非快摇)时对引号对白表现更好。
Veo 3.1 原生音频
Veo 可生成与画面匹配的环境音。在 prompt 里单独写音频 mood:
雨夜城市街道,霓虹倒影,缓慢 tracking 镜头,环境音为雨声与远处车流,电影感,8 秒
避免指定有版权的音乐;描述环境质感即可(咖啡馆人声、海浪、影棚安静)。
模型选型参考
| 需求 | 常见选择 | 原因 |
|---|---|---|
| 口播/对白同步 | 可灵 2.6+ | 引号对白与口型同步较强 |
| 较长电影感 + 环境音 | Veo 3.1 | 场景一致性与原生音效 |
| 大批量社媒、成本敏感 | 可灵 3.0 | 单条成本友好,支持 4K |
在 PixelPrompt 内按 brief 选模型;频繁换模型不如先把提示词写稳。
图生视频要点
- 静帧要清晰
- 先小运动,再大动作
- 锁构图:
产品始终居中、标签保持可读 - 静帧若来自 先优化再生成,视频 prompt 复用同一套光线词
常见问题与修复
| 现象 | 可能原因 | 处理 |
|---|---|---|
| 主体变形 | 运动幅度过大 | 减弱镜头描述;缩短时长 |
| 包装文字融化 | 模型重绘标签 | 换更干净静帧;加「保持标签」 |
| 口型漂移 | 对白过长或过快 | 缩短台词;减少镜头运动 |
上线前检查清单
- 社媒前 1 秒有视觉钩子
- 480p 宽度下产品/ Logo 仍可辨认
- 提示词已存档(含模型与时长)