gpt-image2-ppt -- 用 gpt-image-2 生成 PPT

把一份 markdown 大纲（或 slides_plan.json）+ 一种视觉风格，直接喂给 OpenAI 官方 Images API（gpt-image-2），逐页出图，最后拼成一个键盘可翻页的 HTML viewer + 16:9 .pptx。

十种内置风格

风格 ID	一句话定位	适用场景
---	---	---
`gradient-glass`	Apple Vision OS / Spatial Glass	AI 产品发布、技术分享、创意提案
`clean-tech-blue`	Stripe / Linear 级蓝白	融资路演、商业计划书、企业战略
`vector-illustration`	复古矢量插画 + 黑描边	教育培训、品牌故事、社区分享
`editorial-mono`	Kinfolk / Monocle 编辑设计	品牌发布、文化访谈、读书分享
`dark-aurora`	Linear / Vercel 深色霓虹	AI 产品、开发者工具、技术分享
`risograph`	Riso 双套色印刷 + 网点纹理	创意工作室、文创品牌、独立 zine
`japanese-wabi`	无印 / 原研哉式侘寂	茶道、生活方式、奢侈品、文化讲座
`swiss-grid`	Bauhaus / Vignelli 国际主义网格	学术报告、博物馆展陈、严肃汇报
`hand-sketch`	Sketchnote / 白板手绘	工作坊、产品 brainstorming、培训
`y2k-chrome`	Y2K 千禧液态金属 + 蝴蝶贴纸	潮牌、文娱、品牌联名、Z 世代营销

> 风格选择原则：技术类首选 dark-aurora / gradient-glass，商务类首选 clean-tech-blue / editorial-mono，文化生活类首选 japanese-wabi / vector-illustration，潮文娱类首选 risograph / y2k-chrome，学术类首选 swiss-grid，工作坊与早期创意类首选 hand-sketch。

模板克隆模式

直接给 skill 一个 .pptx 模板，后续所有页都仿这个模板。

# 一行：自动渲染 + vision 抽风格 + 出图。本机有 LibreOffice 或 docker 镜像即可
python3 scripts/generate_ppt.py \
  --plan slides_plan.json \
  --template-pptx ./company-template.pptx \
  --template-strict

--template-strict 表示每页都把模板对应页作为 image reference 喂给 gpt-image-2，仿真度最高。

模板渲染：本机不需要操作 PowerPoint

skill 自带 render_template.py，把 .pptx 自动渲染成每页 PNG，存到 /template_renders//page-NN.png。

后端按优先级自动挑：

本机 libreoffice / soffice 命令（最快）
本机 docker + linuxserver/libreoffice 镜像（首次拉 ~2.5GB）
PDF -> PNG 走 pymupdf（已在 requirements）；没装就用 pdf2image + poppler

如果两种 LibreOffice 都没有，会让用户手动从 PowerPoint/Keynote/WPS 导出每页 PNG，命名 page-01.png 起按字典序对应页码。

跑 generate_ppt.py --template-pptx ... 时如果省略 --template-images 会自动调一次渲染；也可以手动先跑一次：

python3 scripts/render_template.py company-template.pptx
# -> <cwd>/template_renders/company_template/page-01.png ... page-NN.png

仿模板的两层缓存

资料	路径	用途
---	---	---
模板每页 PNG	`/template_renders//page-NN.png`	LibreOffice 一次渲染长期复用
Vision 风格分析	`/template_cache/.json`	gemini-3.1-pro-preview 一次分析长期复用
生成产物	`/outputs//`	每次新跑都新目录

三者都在调用者 cwd 下，与项目自然同进退；建议把 template_renders/、template_cache/、outputs/ 加进项目的 .gitignore。

vision 模型(让 agent 自己判断要不要配)：

如果当前运行本 skill 的 agent 自己就是多模态的（Claude Code 走 Claude Opus/Sonnet 等多模态 SKU、codex 走 GPT 多模态 SKU 等），压根不用外挂 vision 模型：直接让 agent 自己 Read template_renders//page-.png，一次把风格抽出来写进 template_cache/.json 即可(schema 见 template_analyzer.py)。这是默认路径,不需要配 VISION_。
只有 agent 本身是纯文本模型(或你想强制用某个更强的 vision 做模板分析)，才去配 VISION_* 让 template_analyzer.py 走一个独立的 OpenAI 兼容多模态 chat completions 端点(Gemini / GPT / Claude 任选,不内置 default)。

vision 分析与图片生成的 gpt-image-2 永远解耦——换 vision provider 不影响出图路径。

安装

git clone git@github.com:JuneYaooo/gpt-image2-ppt-skills.git
cd gpt-image2-ppt-skills
bash install_as_skill.sh --target claude   # Claude Code
# 或
bash install_as_skill.sh --target codex    # Codex
# 仅当你走 API 直连模式时，再编辑对应目录下的 .env 填入 API_KEY

必需的环境变量

OPENAI_BASE_URL=https://api.openai.com    # 或任意 OpenAI 兼容中转站
OPENAI_API_KEY=sk-...
GPT_IMAGE_MODEL_NAME=gpt-image-2
GPT_IMAGE_QUALITY=high                     # low / medium / high / auto

# 可选：模板克隆模式的 vision 分析 backend。
# 默认让调用本 skill 的 agent 自己看图（多模态 Claude Code / 多模态 codex 皆可）,
# 只有 agent 本身是纯文本模型时才需要外挂下面这组。
# 不内置默认 endpoint，请填你自己信任的服务,否则就别填。
# VISION_BASE_URL=https://your-openai-compatible-relay.example.com/v1
# VISION_API_KEY=sk-...
# VISION_MODEL_NAME=gemini-3.1-pro-preview   # 或 gpt-4o / claude-3.5-sonnet 等任意多模态 SKU

> 安全提示：脚本只从 /.env、~/.codex/skills/.../.env、~/.claude/skills/.../.env、~/skills/.../.env 与显式 GPT_IMAGE2_PPT_ENV 加载凭据，不会向上递归读取项目目录里的 .env，避免误吃无关密钥。

如果你就是 Codex agent（原生 image_generation 出图 — 推荐）

如果你自己就是 Codex（正在运行本 skill 的 agent 就是 Codex CLI / Codex TUI），你自带 image_generation tool 和 ChatGPT 登录态。此时不要跑 generate_ppt.py，直接用原生工具完成整个 pipeline——零依赖、零 API Key、零套娃。

如何判断

你能访问 image_generation tool，并且不需要手动配 OPENAI_API_KEY 就能出图——满足这两个条件就走原生路径。

出图流程（Codex 原生路径）

1. 准备 slides 数据

如果还没有 slides_plan.json，先按下面「生成流程」第 2-3 步写 slides_plan.md → python3 scripts/md_to_plan.py ... 转 json。

2. 读风格模板

读 styles/.md，取 ## 基础提示词模板 section 作为 base prompt。

3. 构造每页 prompt

参考 generate_ppt.py 的 generate_prompt() 逻辑，核心规则：

封面（cover/slide 1）：标题/副标题为视觉焦点
数据页（data/最后一页）：突出关键数字、对比或结论
内容页（content/其余页）：按层级、对齐、留白结构化呈现
所有文字必须简体中文，字体用思源黑体/苹方，严禁草书/艺术字
16:9 横版宽屏（landscape, widescreen），prompt 里明确说"宽度明显大于高度、绝对不要方图"

{style 基础提示词模板}

---

现在请生成本组中的【{封面页/内容页/数据页}】，{对应 hint}
本页要呈现的内容如下（请按本风格美学重新设计版式）：

{slide content}

【强制语言与字体要求】
1. 所有文字必须使用简体中文，严禁英文（专有名词除外）
2. 中文字体使用思源黑体或苹方，严禁草书、艺术字
3. 标题粗体，正文常规，字号对比清晰

【画面比例 — 强制】16:9 横版宽屏 (landscape, widescreen)，宽度明显大于高度，绝对不要方图或竖图。

4. 调 image_generation tool 出图

对每页调你的 image_generation tool：

prompt: 上面拼好的完整 prompt
output_format: png
将返回的图片保存到 outputs//images/slide-NN.png（NN 为两位页码）

可以并发（建议 ≤4 并发，避免限流）。

5. 生成 HTML viewer

读 templates/viewer.html，把 / IMAGE_LIST_PLACEHOLDER / 替换为 'images/slide-01.png', 'images/slide-02.png', ...，写到 outputs//index.html。

6. 打包 PPTX（可选）

python3 -c "
from pptx import Presentation
from pptx.util import Inches
prs = Presentation()
prs.slide_width = Inches(13.333)
prs.slide_height = Inches(7.5)
blank = prs.slide_layouts[6]
import os, glob
for p in sorted(glob.glob('outputs/<timestamp>/images/slide-*.png')):
    slide = prs.slides.add_slide(blank)
    slide.shapes.add_picture(p, 0, 0, width=prs.slide_width, height=prs.slide_height)
prs.save('outputs/<timestamp>/<title>.pptx')
print('done')
"

模板克隆模式（Codex 原生路径）

你自己就是多模态 agent——直接 Read 模板每页 PNG 抽取视觉风格，写到 template_cache/.json（schema 见 template_analyzer.py 里的 TemplateProfile），然后按上面流程出图时把对应模板页作为 reference image 传给 image_generation tool。

不需要配 VISION_*——你就是 vision。

与下面「--backend codex」的区别

	原生路径（本节）	--backend codex
---	---	---
适用场景	你就是 Codex agent	你是 Claude Code / 其他 agent，借用本机 codex CLI
调用方式	直接调 `image_generation` tool	spawn `codex exec --full-auto` 子进程
出图层数	1 层	2 层（agent → python → codex exec）
速度	几秒/张	30-60s/张
可靠性	tool 参数精确	自然语言 relay，偶发失败
需要 API Key	不需要	不需要

可选：走 codex CLI 出图（--backend codex，非 Codex caller 用）

> 如果你就是 Codex agent，不要走这条路——用上一节的「原生路径」代替。

当你用 Claude Code / OpenClaw / 其他 agent 运行本 skill，但本机装了 codex CLI 且已登录（codex login），可以借用它的凭据出图，省掉配 OPENAI_API_KEY：

python3 scripts/generate_ppt.py --plan slides_plan.json --style styles/editorial-mono.md --backend codex

默认后端仍是 openai（直调 API，快、并发稳、每页 3-10s）。--backend codex 是逃生口，适合"只跑 1-2 张图试水、不想配 key"的场景。

Tradeoffs：

✅ 不需要在本 skill 配 OPENAI_API_KEY
⚠️ 慢：每页多一层 agent loop，单页 30-60s+，10 页可能 5-10 分钟
⚠️ 计费不变：gpt-image-2 是按图计费，不在 ChatGPT 订阅内，codex 只是代你刷额度
⚠️ 可控性差：aspect_ratio / quality / reference_image 靠自然语言指令让 codex 转发，偶发失败

生成流程（内置风格）

先 md 后 json：md 给人看、方便 diff / review / 改文案；json 由 md 派生，喂给 generate_ppt.py，标为 generated，不手改。

用户给一份大纲 / 已有的 slides_plan.json
Claude 按下面 md 规范写一份 slides_plan.md，与用户确认文案：

````markdown

---

title: MediWise Health Suite 商业计划书

---

## 1. [cover] MediWise Health Suite

副标题：家庭健康管理智能平台

年份：2026

## 2. [content] 市场痛点：健康管理的两类割裂

痛点一：高频无深度

...

## 6. [data] 效率对比：使用 MediWise 前后

...

````

h2 格式：## N. [page_type, layout=layout-05] 本页标题行
N. 可省（按出现顺序自动编号）；[page_type] 可省（默认 content）；layout= 只在模板克隆模式需要
page_type: cover / content / data
h2 标题行 → json 里 content 的第一行；下面的正文 → 正文

用户 OK 后，转 json：

```bash

python3 scripts/md_to_plan.py slides_plan.md -o slides_plan.json

```

选风格：从上面 10 套里挑一个，对应 styles/.md
调脚本：