输入剧本 → 剧本分析(内部) → 【确认角色/场景/道具清单】→ 【确认风格】→ ①分镜拆解+智能合并 → 【确认合并后分镜详情】→ ②逐镜头设计分镜脚本 → 【确认分镜脚本】→ ③生成Seedance prompt → 输出
references/shot-breakdown-guide.mdreferences/shot-script-guide.mdreferences/merge-rules.mdreferences/cross-shot-continuity.mdreferences/style-guide.mdreferences/voice-design.mdreferences/video-content-guide.mdreferences/output-examples.md三层编号,逐层映射,全程一致,不得混用其他写法:
| 层级 | 编号格式 | 含义 |
|---|---|---|
| ------ | ---------- | ------ |
| 分镜层 | 镜1、镜2、镜3… | 分镜拆解产物,全集连续编号;每个镜绑定一段剧本原文,作为全程基准映射 |
| 视频单元层 | 视频单元1、视频单元2… | 由若干相邻镜合并而成,按出现顺序编号 |
| 提示词层 | 【第X集-NN】 | 最终输出的视频提示词标题;视频单元N 即 第X集-0N(视频单元1→第1集-01,视频单元2→第1集-02,依此类推) |
> 后续所有表格、分镜脚本标题、提示词标题,均严格沿用此编号。分镜脚本标题写作 视频单元N·镜M。
@素材名 引用,绝不在提示词中描写角色外观(外观由参考图承载,避免不同视频单元间形象漂移)。本流程只考虑用户已备好参考图的情况。@素材名 引用)承载,避免不同视频单元间形象不一致。> 完整流程见顶部「工作流速查」。下文按阶段展开各步骤细则。
逐场提取场次信息、人物、动作台词顺序、特殊标记(闪回/特效等)。
为每个有台词/OS的角色设计音色。仅包含性别、年龄感、声音核心特质(2-3个词)三个维度,不包含特定情绪、音量、语速等表演层描述。
音色设计参考 references/voice-design.md。
剧本分析和音色设计完成后,输出以下清单供用户确认:
## 角色与音色清单
| 角色名 | 性别 | 年龄感 | 音色核心特质 |
|--------|------|--------|-------------|
| 章逸 | 男 | 青年 | 磁性、温润、矜贵 |
| 灵汐 | 女 | 青年 | 清脆、柔美、韧性 |
| ... | ... | ... | ... |
## 场景清单
| 场景 | 描述 | 时间 | 内/外 |
|------|------|------|-------|
| 偏院 | 偏僻庭院,陈旧冷清 | 夜晚 | 外 |
| 寝宫 | 华丽寝殿,烛光摇曳 | 夜晚 | 内 |
| ... | ... | ... | ... |
## 道具清单
| 道具 | 所属场景 | 说明 |
|------|----------|------|
| 灯笼 | 偏院 | 手持照明 |
| ... | ... | ... |
道具筛选规则:仅以下三类物品需要单独列为道具:
以下物品不单独列为道具:
清单确认规则:
> 在此停止,等待用户回复后再继续,不得提前进入下一阶段。 清单确认后,方可进入风格确认。
清单确认后,确认视频的基础画面风格(对所有视频单元通用的风格描述):
references/style-guide.md,以一句话概括展示给用户确认基础风格设计原则:只包含对全剧所有视频单元通用的元素——画风大类(真人写实/2D动漫/赛博朋克等)、画面质感、色彩基调、情绪氛围底色。禁止写入受时段、室内外、天气等因素制约的内容。例如:
每个视频单元的场景特定风格(如该单元是夜景、室内暖光、雨中场景等),将在阶段③生成提示词时,基于基础风格补充。
在此停止,等待用户回复后再继续,不得提前进入下一阶段。 用户确认风格后,方可进入分镜拆解环节。
以导演思维将每场拆为独立镜头序列。拆解结果为内部中间产物,不输出给用户。
拆解原则:
references/shot-breakdown-guide.md 1.3节。分镜拆解原则详见 references/shot-breakdown-guide.md。
分镜拆解完成后,立即执行智能合并,根据合并规则将逻辑连续的短镜头合并为视频单元。合并规则详见 references/merge-rules.md。
合并完成后,仅输出合并后的分镜详情表格给用户确认,不输出合并前的分镜列表。在此停止,等待用户回复后再继续,不得提前进入下一阶段。 确认后方可进入阶段②。
| 视频单元 | 分镜号 | 剧本原文 |
|---|---|---|
| --------- | -------- | ---------- |
| 视频单元1 | 镜1 | [剧本原文] |
| 视频单元1 | 镜2 | [剧本原文] |
| 视频单元2 | 镜3 | [剧本原文] |
| 视频单元2 | 镜4 | [剧本原文] |
| 视频单元3 | 镜5 | [剧本原文] |
| ... | ... | ... |
关键约束:
> 合并说明信息:表格后简要列出每个视频单元的合并理由(如"三镜法-动作冲击反应序列"、"连续对白正反打"、"独立长镜头"、"场次切换"等),帮助用户理解合并逻辑。
> 本步骤输出范例见 references/output-examples.md 步骤3。
用户确认合并后的分镜详情后,逐镜头设计完整的分镜脚本。每个镜头的设计必须严格基于该镜头对应的剧本原文,不增不减。
输出格式:每个镜头标题必须包含所属视频单元编号和剧本原文(标题写作 视频单元N·镜M):
## 详细分镜脚本
### 视频单元1·镜1(Xs)
- 剧本原文:[引用剧本原文]
- 景别:[...]
- 视角:[...]
- 视线方向:[角色视线朝向(画面左/右/上/下/镜头),多人时逐一标注并确认交汇/回避关系;POV镜头标注"角色X的POV"]
- 运镜:[...]
- 构图:[...]
- 光影:[...]
- 表演与动作:[严格基于剧本原文,包含眼神三要素(方向+瞳孔+情绪)、微表情序列、肢体语言]
- 台词:[剧本原文台词,若无则标注"无"]
- 音效:[...]
- 连贯性检查:[与上一镜头的连贯性速查结果,逐项确认:180度轴线/角色位置/视线方向/光源方向/光质光比/动作方向/动作速度]
### 视频单元1·镜2(Xs)
- 剧本原文:[引用剧本原文]
- 景别:[...]
- 视角:[...]
- ...
### 视频单元2·镜3(Xs)
- 剧本原文:[引用剧本原文]
- 景别:[...]
- 视角:[...]
- ...
设计要点:
references/shot-script-guide.mdreferences/cross-shot-continuity.md。检查不通过则修正本镜头设计或在「连贯性检查」字段中标注过渡方案完整的分镜脚本设计完成后,输出前按「长文本输出规则」(见文末)判断:内容(含所有镜头的完整条目)≤8000 字则直接输出,>8000 字则写入 第X集_分镜脚本.md 并在对话中反馈路径 + 各场次镜头范围概要。
在此停止,等待用户回复后再继续,不得提前进入下一阶段。分镜脚本一旦确认,后续提示词生成不得擅自修改其中的镜头内容。确认后方可进入阶段③。
严格按照分镜脚本,将每个视频单元转为一条 Seedance prompt。每条 prompt 必须忠实反映该视频单元在分镜脚本中已确定的所有镜头信息(景别、视角、运镜、构图、光影、表演、台词、音效)。
参考素材规则:
视频风格(双层结构):
每条 prompt 的【视频风格】段采用"基础风格 + 场景特定风格"的双层结构:
示例:
```
```
```
```
视频内容:最终输出必须是一段自然连贯的叙事段落,用自然语言按时间先后顺序串联本视频单元包含的所有镜头。严禁分条列举、分模块陈述或按维度切块——所有信息必须有机融合在同一段叙事中。
详细写作规范(六个维度、叙事要求等)见 references/video-content-guide.md。
视频约束:每条 prompt 的约束段必须包含以下固定约束和定制约束两部分:
无字幕、无水印、无背景音乐每个视频单元输出一条提示词,固定结构如下(整集如何组织见文末「整集输出组织规则」):
【第X集-NN | 总时长Xs】 ← NN=视频单元序号(视频单元1→01,视频单元2→02…)
【参考素材】
[列举当前视频单元需要的角色、场景和道具素材]
@角色A;
@场景B;
@道具C;
【视频风格】
[基础风格:对所有视频单元通用的画面风格描述——画风大类、画面质感、色彩基调、情绪氛围]
- 时间:[白天/夜晚/黄昏/凌晨]
- 光源:主光源为[...]([方向+光质]),辅助光为[...]([...]),[环境反光...(如有)]
- 色温:[描述+大约色温值]
- 动态元素:[如有则描述,无则省略此行]
- 氛围:[情绪氛围关键词]
- 微细节:[如有则描述,无则省略此行]
【视频内容】
[一段自然连贯的叙事段落,严格基于分镜脚本按时间先后串联所有镜头。六类信息(镜头语言、角色站位与空间关系、动作表演、对话台词、特效、环境音效)必须有机融合在同一段叙事中,不得分块陈述,详见 references/video-content-guide.md。同一视频单元内多个镜头之间用句号自然分段。]
视频约束:
无字幕、无水印、无背景音乐。[定制化约束内容]
阶段③提示词全部生成完毕后,输出前按「长文本输出规则」(见文末)判断:仅统计 【第X集-NN | Xs】 格式的视频提示词正文(不含角色/场景清单和分镜脚本),≤8000 字则直接输出,>8000 字则写入 第X集_视频提示词.md 并在对话中反馈路径 + 各场次视频单元范围概要。
阶段②(分镜脚本)和阶段③(视频提示词)输出前均按此规则判断,以字符数为准(含中文、英文、标点、换行):
.md 文件(分镜脚本命名 第X集_分镜脚本.md,提示词命名 第X集_视频提示词.md),保存到当前工作目录,然后在对话中以简短消息反馈文件路径 + 内容概要(各场次包含的镜头/视频单元范围摘要),不再重复输出完整正文。字数统计必须用脚本,不得肉眼估算(中文长文本人工计数不可靠)。使用随附脚本:
python scripts/count_chars.py <文件路径>
# 或管道:cat draft.md | python scripts/count_chars.py
脚本输出字符总数及是否超过 8000 字阈值的判定结果,据此决定走"直接输出"还是"写文件"分支。
禁止删除阶段②输出的分镜脚本文件(第X集_分镜脚本.md)和阶段③输出的视频提示词文件(第X集_视频提示词.md)。这两个文件是本流程的核心交付成果,用户可能需要反复查阅或修改。临时文件清理时,必须跳过这两个文件,不得以任何理由将其删除。
单个视频单元的结构见上文「提示词固定结构(唯一权威格式)」,此处只规定整集如何把多个单元组织起来:
# 第X集 视频提示词
> 本集概况:约 X 分 Y 秒 | 共 N 个视频单元
## 第X场:[地点]([时间]·[内/外])
【第X集-01 | Xs】
…(按「提示词固定结构」展开)…
---
【第X集-02 | Xs】
…
--- 分隔。以下为 1个视频单元的完整 prompt 示例,展示最终产出形态:
【第1集-03 | 8s】
【参考素材】
@灵汐;
@章逸;
@偏院夜景;
【视频风格】
古装真人写实质感,影视级布光,肌肤与布料纹理真实,情绪压抑而紧张。
- 时间:深夜
- 光源:主光源为冷蓝月光(硬质侧光,来自左上方),辅助光为地面石板弱反光(冷蓝漫反射),无人工补光
- 色温:冷蓝月色约7000K铺洒青石地面,暗部偏深蓝黑,人物皮肤在月光下呈冷白质感
- 动态元素:夜风穿廊而过,廊柱在地面投下缓慢摇曳的斑驳阴影
- 氛围:清冷对峙,暗藏杀机,压抑中酝酿爆发
- 微细节:石砖缝隙间的枯草在风中微颤,灯笼暖黄光在冷月下形成微弱冷暖交界线
【视频内容】
中景跟拍,灵汐站在画面左侧偏前,章逸立于右侧后方,两人面对面呈对峙之势。灵汐在冷蓝月光下猛力抬起右手,从右向左快速挥出——眼神骤然收紧,瞳孔微缩,眼中迸出决绝的怒火,下颌紧咬以致面部肌肉绷紧,肩膀因蓄力而微微上提——衣袖挥动发出破空声,一掌重重扇向章逸的脸。特写镜头固定,手掌结实击中章逸左脸,面部因冲击力微微变形——章逸眼中先是茫然(瞳孔微微扩散),随即震惊浮现(眉头上扬、眼睑急速撑开),最后转为不可置信(眉心微蹙、嘴角微颤)——沉闷的掌击声响起,月光在皮肤上映出清晰的掌印。近景固定,章逸缓缓偏回头,表情从错愕转为震惊再到不可置信——双眼先是失焦游离,再定焦于灵汐脸上,最后目光垂落,睫毛轻颤——眼眶逐渐泛红,双肩微微下沉,喉结轻动——他声音发颤、气息微弱、音量渐低,章逸(男·青年·磁性、温润、矜贵)嗫嚅:「你……」,几不可闻,夜风穿过廊柱发出呜咽般的低鸣。
视频约束:
无字幕、无水印、无背景音乐。本视频需保持冷蓝月光色调贯穿全程。古装长袍纹理与褶皱保持一致。手掌击打动作流畅有力,面部冲击变形控制在合理范围内,微表情变化清晰可辨。运镜过渡平滑无跳帧,人物面部特征前后统一。
| 情况 | 处理方式 |
|---|---|
| ------ | ---------- |
| 用户提交多集剧本 | 仅处理第一集,提示用户后续按集分别提交 |
| 剧本只有台词无动作描述 | 按台词节奏拆分镜头,标注"剧本原文无动作描述,镜头设计为建议" |
| 剧本无明确角色名 | 按"角色A/角色B"暂代,标注需用户补充真名 |
| 用户只要求处理某几场 | 仅处理指定场次,其余跳过 |
| 闪回/闪进 | 合并为独立视频单元,1-2s/镜快切,色调用柔光/褪色 |
| OS(内心独白) | 在视频内容中以 角色名(音色:性别·年龄感·核心特质):「内容」(OS) 格式嵌入,必须附带阶段①确认的固定音色 |
| 剧本含系统面板/UI | 在视频内容描述中嵌入特效描述,可用参考素材提供 UI 参考图 |
| 合并后视频单元 >15s | 不可合并,必须拆为多个视频单元(Seedance 2.0 单条上限 15s) |
| 未被合并的 <4s 独立镜头 | 单独作为一个视频单元,适当补充空镜头/环境镜头,将时长扩充到至少 4s(Seedance 2.0 单条下限 4s) |
| 合并3镜以上且内容密集 | 检查是否能在时长内被看清,必要时拆分 |
共 3 个版本