提示词工程工作流：先优化再生成（Flux & GPT Image）

为什么默认要「先优化再生成」

多数 AI 生成翻车并不是模型不行，而是提示词不够具体。像「好看的商品图」这种描述，模型会在光线、角度、背景、风格上自由发挥，结果每次都不一样。2026 年的提示词工程更少依赖魔法词，更多依赖模型能解析的结构化 brief：主体、场景、光线、风格与护栏。优化把模糊意图变成这些指令，供 Flux 2、GPT Image 2、可灵、Veo、Seedance 执行。

优化后通常能获得：

目标更清晰 — 主体、场景、用途一目了然
风格更统一 — 同一品牌视觉可批量复现
细节可控 — 材质、光影、构图都有明确描述
结果更稳定 — 减少随机废片和反复重 roll

这也是稳定文生图、可靠 AI 视频生成，以及电商/社媒批量素材的底层方法。

结构化提示词公式

专业团队很少写一整段话，而是用分字段模板，优化器会帮你填充：

字段	写什么	示例
主体	谁/什么、角度、比例	`30ml 玻璃精华瓶，3/4 侧前方，标签朝向镜头`
场景	环境、台面、道具	`大理石梳妆台，左侧柔和窗光`
光线	主光、辅光、氛围	`暖色影棚主光，产品下方轻阴影，无硬反光`
风格	艺术方向、参考调性	`高级 DTC 护肤广告，极简，非冷冰冰实验室感`
约束	不能改什么	`保留标签文字、瓶身形状，不要额外物体`
输出意图	平台、画幅、用途	`Instagram 4:5 广告帧，产品占下方 60%`

优化器会基于你的草稿生成 3 个版本，差异主要在风格或光线，而不是随机换主体。

优化前后对比

草稿（模糊）：

护肤精华瓶，干净背景，高级感，适合 Instagram 广告

优化后（可投产）：

玻璃护肤精华瓶，3/4 角度，标签可读，大理石台面，柔和暖色影棚光，极简高级 DTC 广告风，产品下方轻微阴影，背景干净，3:4 构图产品占下方三分之二，写实摄影，高细节，保持包装形状与文字不变。

变化在于：角度、台面、光向、构图区域、明确约束——而不只是多堆形容词。

Flux 2 / GPT Image 2：自然语言散文 > 关键词堆叠

现代生图模型（尤其 Flux 2 一类编码器）更吃自然语言散文，而不是 Stable Diffusion 时代的逗号标签串。

更推荐	尽量少用
「大理石台上的玻璃精华瓶，左侧柔和窗光，标签朝向镜头」	`bottle, marble, soft light, 8k, masterpiece, trending`
具名材质与光向	安慰剂质量词（「Unreal Engine 5」「ArtStation」）
一个清晰交付物（「Amazon 主图，纯白底」）	一条里混合规主图 + 赛博朋克海报

实用规则： 40–120 词的清晰视觉散文，通常胜过 15 个 tag。让提示词优化器把草稿扩成散文——再删冲突，而不是继续堆形容词。

场景	建议
目标清楚但不知道怎么写	先直聊 → 再优化
已有可用提示词但效果漂移	直接优化
新 campaign，方向未定	直聊探索 2–3 种调性 → 优化
批量生产已有模板	跳过直聊，只优化模板变体

详见提示词功能使用方法。

什么时候可以跳过优化

以下情况可简化或跳过：

探索风格方向 — 只是看 mood，不交付正式素材
约束极强的修图 — 如「仅抠白底」，原图已 approved
金牌模板小改 — 只换 SKU 名称，结构不变

付费投放、客户交付或单次批量超过 5 条时，优化通常能靠减少重 roll 回本。

团队协作：统一提示词库

类别	模板字段
商品图	SKU、角度、背景、光线、「保持标签可读」
社媒帖	平台、钩子情绪、CTA 语气、文字安全区
视频广告	时长、镜头运动、产品特写帧、配音意图

每月复盘一次，淘汰 CTR 或转化持续偏低的模板。

常见误区

一次改太多关键词 — 无法判断哪个改动起效
导出时才想画幅 — 9:16 / 1:1 应从提示词阶段就考虑构图
视频一上来就生很长 — 先用短片段验证运动

翻车诊断速查表

优化后仍不稳定时，按现象定位该改哪一句——每次只动一格。

现象	常见根因	优先改什么
每次主体角度不同	草稿缺角度/景别	主体字段加 `3/4 侧前方、标签朝镜头`
背景随机换色	缺场景/背景约束	场景字段写死 `纯白背景` 或具体台面
视频标签融化	运动过猛或纯文生视频	改图生视频 + `轻微运动、保留标签`
三版优化结果换 SKU	草稿太模糊	回直聊补一句主体，再优化
批量 SKU 风格散	没有金牌模板	固定模型+画幅，只换产品名词
塑料人像	缺排除句	加 `保留毛孔、避免塑料皮`（见美颜教程）

完整症状→修复对照见提示词功能使用方法排错章节。

常见问题

优化对视频也有效吗？
有效。主体 + 场景 + 运动 + 光线的结构同样适用于可灵、Veo 和图生视频。

一次生成几个版本合适？
优化 3 个方向 + 1–2 次手动微调，多数决策足够。

同一套提示词能跨模型用吗？
结构可以复用；质量相关词按 Flux、GPT 生图等模型微调即可。

迭代记录表（团队可直接复制）

字段	示例
日期 / SKU	2026-06-21 · 精华 30ml-A
草稿 prompt	（粘贴）
优化后选用版	（粘贴）
模型 + 画幅	Flux 2 · 3:4
本轮改动	「加了轻接触阴影；去掉模糊的『高级感』」
通过/失败	通过 — 320px 宽标签仍可读
下一步	升为金牌模板 #SKU-beauty-01

积分与时间粗算

10 个 SKU 批量、开启优化时的大致量级：

步骤	积分	单人耗时
草稿 + 优化 × 10	约 5 积分	25–40 分钟
每 SKU 生成 3 版	按模型计	30–50 分钟
筛选 + 微调	—	约 15 分钟

只要优化能少 每个 SKU 重 roll 两次，通常就回本——视频更明显，一条废片往往比三次优化更贵。

模型升级后模板漂移怎么办

用同一草稿只重跑优化器，不要从零重写
新版本与存档优胜版对比，看哪一字段变了（光线描述最常变）
加一句明确约束，而不是堆形容词
先测一个 SKU，再全量批量