← 返回
未分类 Key

漫剧视频制作

Vidu开放平台的漫剧短片生成能力,内置生图、TTS、支持Vidu-Q2、Q3参考生视频模型,可选时长。
朱光月
未分类 enterprise v1.2.0 100000 Key: 需要
★ 1
Stars
📥 23
下载
💾 0
安装

概述

动漫成片制作 Skill

任务目标

  • 本 Skill 用于:将创意输入转化为完整的动漫成片,涵盖从剧本创作到最终自动拼接的全流程
  • ⚠️ 硬性要求:所有图片生成、视频生成、TTS语音生成只能使用Vidu API!绝对不能使用任何其他模型!
  • 能力包含:剧本创作、场景大分镜设计、小分镜表生成、Vidu API集成(生图/视频/TTS)、自动视频音频拼接
  • 触发条件:用户需要制作动漫/动画视频,提供创意主题或详细剧本需求

前置准备

  • 依赖说明:需要安装ffmpeg进行视频音频拼接

```bash

apt-get update && apt-get install -y ffmpeg

```

  • Vidu API凭证:需要在 Skill 执行前配置 Vidu API Key(已通过凭证系统集成)

操作步骤

  • 标准流程:
  1. 剧本创作
    • 根据用户输入的创意主题、角色设定、故事背景等,生成完整的剧本
    • 剧本应包含:故事梗概、角色介绍、场景列表、对白、动作描述
    • 智能体完成此步骤,使用自然语言创作
    • ⚠️ 确认点:向用户展示剧本内容,等待用户确认或修改
  1. 风格确认
    • 根据剧本内容和用户偏好,确定整体美术风格
    • 提供风格的文本形式的选项:3d动漫风格、二次元动漫风格、中国古风、赛博朋克、写实风等
    • ⚠️ 确认点:向用户展示整体风格设定,等待用户确认或调整,如果用户在前面的对话中已经交代了风格,不需要让用户再确认
    • 记录确认后的风格配置,用于后续所有生成任务的首句提示词
  1. 场景、大分镜设计
    • 将剧本拆解为多个场景,每个场景设计大分镜
    • ⚠️ 所有场景图只能使用Vidu API生成!
    • 为每个场景生成完整的场景资产包:
    • 基础场景图:使用 scripts/vidu_generate_image.py,基于确认的风格和剧本描述
    • 人物站位图:使用 scripts/vidu_generate_image.py,基于场景图+当前场景的所有单个角色图,参考剧本内容,生成角色在场景中的位置关系
    • 场景四宫格图:使用 scripts/vidu_generate_image.py,- 使用提示词:“基于场景图,生成该场景不同角度的四宫格图(正面、反打、左侧面、右侧面镜头)”
    • 场景描述(大致剧情、出镜角色、相对位置)
    • ⚠️ 确认点:向用户展示每个场景的三张图(场景图、站位图、四宫格图)和设计方案,等待用户确认或修改
    • 智能体指导场景拆解,调用脚本生成场景资产包
    • 记录确认后的场景资产(三张图URL),用于后续所有分镜生成
  1. 角色资产确认(含三视图检测)
    • 检查用户上传的角色图是否是三视图
    • ⚠️ 如果不是三视图,只能使用Vidu API生成角色三视图!
    • 使用 scripts/vidu_generate_image.py
    • 使用提示词:"参考图角色,中心区域生成全身三视图以及一张面部特写(最左边占满三分之一的位置是超大的面部特写,右边三分之二放正视图、侧视图、后视图),角色比例适中,清晰可见。严格按照比例设定,包括身高对比和头身比,线条简洁明了,线条流畅自然,色彩搭配协调,保持整体风格统一和原图一致,背景与角色形成对比,视觉焦点集中在角色身上,确保角色比例准确,表情动作自然流畅,如果角色没有服装,服装设计需要符合角色背景,角色为自然站立状态,比例16:9"
    • 参考文档详见 references/character-three-views.md
    • ⚠️ 所有TTS只能使用Vidu API!
    • 为每个角色匹配TTS音色(参考 references/voice-list.md
    • 为每个角色的音色生成试听音频(使用 scripts/vidu_generate_audio.py
    • ⚠️ 确认点:向用户展示每个角色的三视图、音色名称和试听音频,等待用户确认或调整
    • 记录确认后的角色资产配置(角色三视图URL + 音色ID)
  1. 资产整合
    • 校验每个场景的资产完整性:
    • 角色图及对应音色(已确认,包含三视图)
    • 场景图(已确认,包含三张图)
    • 整体风格(已确认)
    • 输出镜头n的资产包(结构见 references/storyboard-format.md
    • 智能体完成资产校验与整理
    • ⚠️ 确认点:向用户展示完整的资产清单(角色、场景、风格),等待用户最终确认后进入生成阶段
  1. 小分镜表生成
    • 根据场景大分镜生成详细的小分镜表
    • 每个分镜包含:输入图(使用已确认的角色图、场景图、人物站位图、场景四宫格图)、分镜提示词、说话人、情绪、台词、时长
    • 在某场景下,每个分镜的输入图必须包含该场景人物站位图和该场景四宫格
    • 分镜提示词必须遵循规范:风格/景别/机位/构图/运镜 + 画面描述 + 图片强调
    • ⚠️ 时长规划规则(2-8秒)
    • 按剧情节奏
    • 紧张/冲突/追逐/打斗场景:2-4秒,快速切换营造紧迫感
    • 舒缓/情感/回忆/独白场景:4-6秒,让观众沉浸情绪
    • 关键转折/高潮镜头:可延至6-8秒,强调戏剧张力
    • 过渡/空镜/环境交代:3-4秒,节奏适中
    • 按镜头类型
    • 全景/建立镜头:4-6秒,需时间交代环境信息
    • 中景/对话镜头:3-5秒,视台词长度调整
    • 近景/特写镜头:2-4秒,快速传递情绪或信息
    • 反应镜头:2-3秒,简洁有力
    • 按台词长度(有台词的分镜):
    • 短句(<10字):2-3秒
    • 中句(10-20字):3-5秒
    • 长句(>20字):5-8秒(或拆分为多个分镜)
    • 组合计算:以上三个维度综合考虑,取中间值。例如"紧张场景的特写反应"取最短2秒,"舒缓场景的全景建立"取最长6秒。
    • 特别注意
    • 若使用 viduq3 模型(默认):提示词中必须包含台词内容,例如 "他说:'xxxx'"。每句提示词必须以"(不要背景音乐,保留音效和环境音)"结尾
    • 若使用 viduq2 模型(备选):提示词仅包含画面描述,不含台词。
    • 图片强调必须参考人物站位图中的角色位置关系。
    • 特别注意:对于双人对话镜头,必须参考 references/camera-shots.md 中的机位描述,选择合适的镜头类型(如内反拍、外反拍等)来丰富画面语言。
    • 风格部分使用已确认的整体风格词
    • 参考 references/storyboard-format.md 中的格式规范
    • 智能体生成结构化的小分镜表
    • ⚠️ 确认点:向用户展示小分镜表(关键分镜的预览),等待用户确认或调整
  1. 生成分段TTS
    • ⚠️ 所有TTS只能使用Vidu API!
    • 默认方案:使用 viduq3 模型直出(推荐)
    • viduq3 支持在生视频时直接生成对话和音效,无需单独生成TTS
    • 一站式生成,效率更高
    • 备选方案:viduq2 模型 + TTS(仅在用户明确要求时使用)
    • 遍历小分镜表,为每个有台词的分镜生成语音
    • 调用 scripts/vidu_generate_audio.py,传入:text(台词)、voice_id(已确认的音色)、emotion(情绪)
    • 脚本执行,返回音频文件URL
  1. 生成视频片段
    • ⚠️ 所有视频只能使用Vidu API!
    • 模型选择
    • viduq3(默认推荐):支持长达16秒视频,支持对话和音效直出,一站式生成效率高。
    • viduq2(备选):仅生成画面,需配合TTS使用。
    • 遍历小分镜表,为每个分镜生成视频片段
    • 调用 scripts/vidu_generate_video.py
    • 通用参数:images(参考图)、duration(时长)
    • viduq3 参数(默认):model="viduq3"、audio=True、prompt(包含台词的提示词,必须以"(不要背景音乐,保留音效和环境音)"结尾
    • viduq2 参数(备选):model="viduq2"、audio=False、prompt(仅画面描述)
    • 脚本执行返回task_id,使用 scripts/vidu_query_task.py --task_id {task_id} --wait 轮询等待任务完成
    • 智能体管理任务状态并收集视频片段
    • ⚠️ 确认点:每生成一个视频片段,向用户展示预览,等待用户确认后继续下一个
  1. 根据剧情、时间轴自动拼接成片 (第9个确认点)
    • ⚠️ 我会直接执行:根据剧本剧情和小分镜表的时间轴,将生成的视频片段和语音文件整合,自动调用脚本进行拼接
    • 生成时间轴配置JSON(见 references/timeline-config.md
    • 调用 scripts/merge_video_audio.py 拼接视频和音频,生成最终成片
    • 支持转场效果、背景音乐混合
    • ⚠️ 确认点:向用户展示拼接完成的成片,等待用户确认或调整
  1. 最终交付
    • 交付最终成片(MP4格式)
    • 交付时间轴配置文档
    • 提供素材清单(所有视频片段、音频片段的来源信息)
  • 可选分支:
  • 当需要仅生图:只能使用Vidu API! 调用 scripts/vidu_generate_image.py 生成场景图,使用 scripts/vidu_query_task.py --task_id {task_id} --wait 获取结果
  • 当需要仅生视频:只能使用Vidu API! 调用 scripts/vidu_generate_video.py 生成视频片段,使用 scripts/vidu_query_task.py --task_id {task_id} --wait 获取结果
  • 当需要仅生语音:只能使用Vidu API! 调用 scripts/vidu_generate_audio.py 生成TTS语音(同步接口,直接返回结果)

资源索引

注意事项

  • ⚠️ 绝对禁止使用任何非Vidu的图片、视频、TTS模型!所有生成任务只能使用Vidu API!
  • ⚠️ 视频模型支持 viduq3 和 viduq2!
  • viduq3 提示词规范:使用 viduq3 生成视频时,每句提示词必须以"(不要背景音乐,保留音效和环境音)"结尾,以确保音频效果符合预期。
  • 所有 Vidu API 调用需要配置 API Key 凭证,凭证已通过 skill_credentials 集成
  • 小分镜表格式必须严格遵循 references/storyboard-format.md 的规范
  • 分镜提示词编写规范:必须按三部分结构编写(风格/景别/机位/构图/运镜 + 画面描述 + 图片强调),详见参考文档
  • 分镜时长规划:每个分镜时长必须在 2-8 秒范围内,按剧情节奏、镜头类型、台词长度三维度综合计算。紧张场景切快(2-4s),舒缓场景切慢(4-6s),全景建立较长,特写反应较短。
  • 资产确认流程:每个关键环节都需要用户确认,包括剧本、风格、角色图、音色试听、场景图、小分镜表、TTS音频、视频片段
  • TTS 支持情绪控制,可根据台词内容自动选择合适的情绪
  • 视频生成支持参考图和参考视频,建议使用场景图作为参考
  • 生图、生视频为异步任务:调用后获得task_id,需使用 vidu_query_task.py --task_id {task_id} --wait 轮询等待完成,结果URL有效期24小时
  • TTS 为同步接口,直接返回音频文件 URL
  • 风格一致性:确认后的整体风格必须在所有后续生成任务中保持一致
  • 角色一致性:确认后的角色图必须在所有分镜中作为参考图使用
  • 质量把控:每个生成环节都需要用户确认后才进入下一环节,确保质量可控
  • ⚠️ 我会直接执行拼接:在视频音频拼接环节,我会直接调用脚本按时间轴拼接素材,不需要额外指导

使用示例

示例1:完整动漫短片制作

  • 功能说明:从创意到成片的完整制作流程,包含所有确认环节,最终自动拼接成片
  • ⚠️ 所有图片、视频、TTS只能使用Vidu API!
  • 执行方式:混合模式(智能体+脚本)
  • 关键步骤:
  1. 用户输入:"制作一个关于少年冒险的3分钟动漫短片"
  2. 智能体生成剧本 → ⚠️ 等待用户确认剧本
  3. 智能体确定风格并使用Vidu API生成参考图 → ⚠️ 等待用户确认风格
  4. 智能体使用Vidu API生成场景图 → ⚠️ 等待用户确认场景图
  5. 智能体使用Vidu API生成角色图并匹配音色 → ⚠️ 等待用户确认角色图和音色试听
  6. 智能体展示资产清单 → ⚠️ 等待用户最终确认
  7. 智能体生成小分镜表 → ⚠️ 等待用户确认小分镜表
  8. 调用 vidu_generate_audio.py 生成所有TTS语音(若使用viduq2)→ 无需用户确认,直接下一步
  9. 调用 vidu_generate_video.py 逐个生成视频片段(默认使用viduq3模型,提示词以"(不要背景音乐,保留音效和环境音)"结尾)→ ⚠️所有片段生成完毕后等待用户确认
  10. ⚠️ 我会直接执行:自动生成时间轴配置,调用 merge_video_audio.py 拼接成片 → ⚠️ 等待用户确认成片
  11. 交付最终成片

版本历史

共 1 个版本

  • v1.2.0 Initial release 当前
    2026-05-19 19:05 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

Vidu-视频生成

u_c3c8f0a0
Vidu开放平台的视频生成能力,支持文生视频、图生视频、参考生视频、首尾帧生视频支持使用Vidu开放平台提供的所有模型版本。
★ 1 📥 25

Vidu-特效生成

u_c3c8f0a0
Vidu开放平台的特效生成能力,内置400+特效模板,涵盖:变身,转绘,趣味,节日,搞怪等风格的400+特效模板,支持使用Vidu开放平台提供的所有特效。
★ 1 📥 24

Vidu-generation

u_c3c8f0a0
Vidu AI 视频/图片/音频生成。支持文生视频、图生视频、参考生视频、图片生成、TTS语音合成、声音复刻。对话式调用,自动识别意图。
★ 1 📥 25