基于 SOCAWT 六维视觉分析框架,支持两种工作模式:直接创作提示词、分析图片提取提示词。提示词使用自然语言句子(非关键词堆砌),适用于即梦、GPT-Image-2、Nano Banana 等新一代模型。
| 模式 | 触发条件 | 所需能力 | 核心流程 |
|---|---|---|---|
| --- | --- | --- | --- |
| 模式一:直接创作 | 用户用文字描述需求,无图片输入 | 文本理解 + 框架思维 | 需求理解 → SOCAWT 组织 → 模板生成 |
| 模式二:分析图片 | 用户提供了图片,要求分析或提取提示词 | 多模态大语言模型(必须能看图) | 获取图片 → 类型判断 → 自适应分析 → 生成提示词 |
> 重要:模式二必须使用支持图像输入的多模态模型。若当前模型不支持图像输入,请明确告知用户无法执行图片分析,可转入模式一(根据用户描述创作提示词)。
根据用户输入自动判断:
当用户用文字描述需求时,用 SOCAWT 思维框架帮助用户组织需求,直接生成自然语言提示词。
提取用户描述中的关键信息。用以下清单系统性引导用户表达需求。
> 设计说明:9 要素 = 3 项需求上下文(用途/限制/输出质量)+ SOCAWT 六维视觉维度。对外使用 9 要素提问(用户友好),对内使用 SOCAWT 组织(专业分析),本质是一套语言的两面。映射关系见表格最后一列。
| 序号 | 要素 | 关键问题 | 示例 | SOCAWT 映射 |
|---|---|---|---|---|
| --- | --- | --- | --- | --- |
| 1 | 用途 | 这张图用来做什么? | "用于电商主图"、"小说封面"、"朋友圈海报" | 需求上下文 |
| 2 | 主题 | 画面围绕什么主题? | "环保公益"、"科技创新"、"浪漫婚礼" | C — Core |
| 3 | 主体 | 画面核心元素是什么? | "一位穿旗袍的女性"、"一台银色笔记本电脑" | O — Object |
| 4 | 风格 | 用什么视觉风格? | "电影感摄影"、"扁平插画"、"3D 渲染" | A — Artistry |
| 5 | 构图 | 横版还是竖版?主体在哪? | "竖版 9:16,主体居中偏左" | S — Space |
| 6 | 文字 | 需要文字吗?写什么? | "主标题写'限时特惠',副标题..." | T — Type |
| 7 | 色彩 | 主色调?情绪色彩? | "暖橙色调,传递活力感" | W — Wash |
| 8 | 限制 | 不要什么?必须保留什么? | "不要人物,不要杂乱背景" | 需求上下文 |
| 9 | 输出质量 | 分辨率?用途? | "4K,适合印刷"、"1080px 正方形,适合小红书" | 需求上下文 |
不同类型图片的关注重点:
| 图片类型 | 分析重点 | 容易翻车的地方 |
|---|---|---|
| --- | --- | --- |
| 人物写真 | 面部特征、表情、光线方向、背景虚化程度 | 不写清人物年龄/性别/服装,AI 随机生成 |
| 产品图 | 材质细节、光影方向、背景干净度、摆放角度 | 不写清"不能改"的结构/标签/颜色,AI 乱改 |
| 海报设计 | 文字层级、信息架构、视觉隐喻、留白比例 | 文字不加引号,导致错别字或遗漏 |
| 插画 | 画风一致性、角色特征、叙事性、色彩情绪 | 只说"可爱风格"不写具体内容,结果千人一面 |
| 信息图 | 信息层级、模块数量、数据可视化方式 | 一次塞太多内容,导致信息溢出、可读性差 |
| UI 界面 | 平台特征、组件规范、交互状态、文字可读性 | 不给平台信息,AI 混用 iOS/Android/Web 风格 |
| 艺术抽象 | 情绪表达、色彩关系、构图张力、笔触质感 | 只说"抽象"不写情绪/概念,结果空洞无意义 |
> 若用户描述已包含足够信息,直接跳到 Step 3。若信息不足,用 1-2 个问题补充关键缺失维度(优先:用途、主体、风格、构图比例)。
将 Step 1 收集到的信息,按 SOCAWT 六维重新组织。映射关系:主题→C、主体→O、风格→A、构图→S、文字→T、色彩→W,用途/限制/输出质量作为 brief 的上下文信息。
> 为什么用两套词? 9 要素是"面向用户的提问语言"(用户不懂 SOCAWT 也能答),SOCAWT 是"面向视觉的分析语言"(专业结构化)。你从用户那收集到的信息,翻译到 SOCAWT 框架里就行了。
引导用户(或自我补充)完善以下维度:
| 维度 | 需明确的问题 |
|---|---|
| --- | --- |
| S — Space(空间) | 横版还是竖版?主体位置?构图偏好?镜头感? |
| O — Object(主体) | 主体是什么?外观特征?动作/状态? |
| C — Core(核心) | 画面想表达什么概念/情绪?有什么视觉隐喻? |
| A — Artistry(艺术表现) | 对比手法?质感?艺术流派参考? |
| W — Wash(色彩) | 主色调?冷暖?情绪色彩? |
| T — Type(文字/层级) | 需要文字吗?什么文字?排版要求? |
> 若用户描述已包含足够信息,直接跳到 Step 3。若信息不足,用 1-2 个问题补充关键缺失维度(优先 S、O、W)。
根据图片类型选择对应模板:
模板详见 references/prompt-craft.md(提示词工程手册)。
当用户提供了图片时,使用多模态能力分析图片,输出 SOCAWT 结构化分析 + 可复现的文生图提示词。
分析图片属于哪一类,决定后续分析侧重和提示词模板:
| 类型 | 特征 | 提示词模板 |
|---|---|---|
| --- | --- | --- |
| A 影像类 | 摄影、电影感图像、写实渲染,关注"瞬间"与"光影" | 模板 A(导演口述式) |
| B 设计类 | 海报、信息图、书籍插画、UI,关注"信息架构"与"视觉隐喻" | 模板 B(设计简报式) |
| C 艺术抽象类 | 抽象画、实验视觉、纯艺术,关注"色彩/构图/情绪表达" | 模板 C(艺术表达式) |
判断依据:
读取 references/soca-wt.md,掌握六维分析框架的完整定义。
> Fallback 机制:若无法读取 references/soca-wt.md,直接使用 Step 2.3 的核心检查点继续执行,不要中断流程。
根据图片复杂度选择分析维度,控制输出长度(避免 token 超限):
| 图片复杂度 | 判断标准 | 分析维度 | 每维度控制 |
|---|---|---|---|
| --- | --- | --- | --- |
| 简单 | 单一主体、背景简洁、无文字、常见场景 | S + O + W | 每维 2-3 个观察点 |
| 中等 | 多主体互动、有明确叙事、有设计意图 | S + O + C + W | 每维 3-5 个观察点 |
| 复杂 | 信息密度高、多层级构图、有文字/隐喻/艺术手法 | S + O + C + A + W + T | 每维 4-6 个观察点 |
复杂度判断规则:
输出长度控制:
对每个选中的维度进行结构化观察。以下是各维度的核心检查点(完整定义见 references/soca-wt.md):
读取 references/prompt-craft.md,获取详细的提示词模板、写作技巧和模型适配建议。
根据图片类型选择对应模板。全部用自然语言句子写作,不用关键词堆砌。
> 重要原则:即梦、GPT-Image-2、Nano Banana 均支持自然语言提示词。写作方式应像"向一位画家/摄影师口述你的需求"。
请生成一张[横版 16:9 / 竖版 9:16]的照片。
画面中,[主体]正在[做什么],位于[位置],
周围环境是[描述环境与氛围],
光线条件是[描述光源与光影氛围],
整体色彩偏向[描述色调与色彩感觉]。
参考[电影名称 / 摄影师 / 艺术风格]的感觉。
请生成一张[横版/竖版,具体尺寸]的[海报/信息图/插画]。
这张图的类型是:[说明这是什么图、用来做什么]
画面布局与网格系统:
- 网格结构:[单列 / 双栏 / 三栏 / 不对称网格]
- 主标题写"[原文内容]",字号约为画面高度的[1/6~1/8],
字体用[字体风格],颜色[颜色],位置在[具体位置]
- 副标题字号为主标题的[50%~60%],行高[1.2~1.5倍]
- [其他文字层级同样标注字号比例和位置]
核心视觉元素:[描述核心图形/插画内容,包括拟人化手法和隐喻]
风格参考:[艺术流派 / 设计师 / 视觉风格]
材质/质感参考:[纸张/印刷/屏幕显示的质感描述]
请生成一张[尺寸]的[油画/水彩/丙烯/数字艺术/抽象画]。
我想表达的感觉是:[用自然语言描述情绪/理念,可以用比喻]
色彩上:[描述色彩关系与情绪]
构图和笔触:[描述构图结构与技法]
参考[艺术家/流派]的感觉,但加入[你的个人要求]。
| 模型 | 提示词建议 | 特别注意事项 |
|---|---|---|
| --- | --- | --- |
| 即梦(Jimeng) | 中文自然语言,描述尽量具体 | 支持对话式修改;对中文文字渲染支持较好 |
| GPT-Image-2 | 中文或英文自然语言均可 | 擅长带字图片;文字内容务必用""标出原文 |
| Nano Banana | 自然语言,支持对话修改 | 支持局部编辑指令 |
| Midjourney 6/7 | 自然语言有效,可混合短语 | 支持更自由的描述方式 |
| Stable Diffusion XL | 自然语言有效 | 可用 ComfyUI 节点精确控制 |
输出后主动询问用户:
高级感、电影感、氛围感 → AI 不知道画什么,随机生成高级感产品图为高端护肤品牌拍摄的产品图,主体是一瓶磨砂玻璃瓶装的精华液,放在白色大理石台面上,侧光打出玻璃质感,背景柔和虚化。不要人物,不要有文字。竖版 3:4,适合电商详情页。不要乱改产品图 → AI 不知道"产品图"具体指什么,可能改掉产品颜色、形状、标签不要改我的产品图主体是一瓶蓝色玻璃瓶的香水,保持当前瓶身形状、蓝色渐变、金色瓶盖不变。只改背景为春日花园场景,不要改产品本身。主标题写新年大促 → AI 可能写成"新春促销"、"新年特惠"或乱码"" 标出主标题写新年大促主标题写"新年大促"四个字,用粗黑体,红色,位于画面正上方帮我做一个品牌整套视觉,包括 logo、海报、详情页、社交媒体封面、名片 → 结果每个都只做一半,质量极差帮我画一张图 → AI 默认生成正方形,不适合你的发布场景竖版 3:4竖版 9:16横版 2.35:1正方形 1:1横版 16:9竖版 9:19高级感、极简风、有设计感 → AI 不知道你的"高级感"和别人的"高级感"有什么区别,随机输出一张"看起来还行但完全不是你想要的"图高级感产品图,极简风格为北欧家具品牌创作产品图。参考 Aesop 品牌的视觉调性——克制、自然、有呼吸感。主体是一把胡桃木椅子,放在浅米色亚麻布背景上。光线柔和,没有硬边阴影。色彩以大地色系为主,点缀少量黑色金属细节。输出正方形 1:1,适合 Instagram。电影感,要说参考《银翼杀手2049》的冷峻色调和广角构图可爱插画,要说参考《Klaus》动画的角色造型比例和用色复古海报,要说参考穆夏(Mucha)的装饰性曲线和柔色调花卉元素> 原理:没有参考系的风格词就像没有刻度的温度计——你知道要"热一点",但不知道具体几度。给 AI 一个具体的参照物(电影/品牌/艺术家),它才能精准复现你想要的美学气质。
--ar、(weight:1.2) 等语法共 2 个版本