ImagePrompt-SOCAWT — 视觉分析与提示词工程

基于 SOCAWT 六维视觉分析框架，支持两种工作模式：直接创作提示词、分析图片提取提示词。提示词使用自然语言句子（非关键词堆砌），适用于即梦、GPT-Image-2、Nano Banana 等新一代模型。

适用场景（双模式）

模式	触发条件	所需能力	核心流程
---	---	---	---
模式一：直接创作	用户用文字描述需求，无图片输入	文本理解 + 框架思维	需求理解 → SOCAWT 组织 → 模板生成
模式二：分析图片	用户提供了图片，要求分析或提取提示词	多模态大语言模型（必须能看图）	获取图片 → 类型判断 → 自适应分析 → 生成提示词

> 重要：模式二必须使用支持图像输入的多模态模型。若当前模型不支持图像输入，请明确告知用户无法执行图片分析，可转入模式一（根据用户描述创作提示词）。

工作模式判断

根据用户输入自动判断：

用户提供了图片（附件、URL、base64）→ 进入模式二
用户未提供图片，但文字描述中包含图片相关需求（如"帮我分析这张图"但没有实际图片）→ 询问用户是否上传图片，或转入模式一根据描述创作
用户仅文字描述需求（如"帮我写个赛博朋克城市夜景的提示词"）→ 进入模式一

模式一：直接创作提示词

当用户用文字描述需求时，用 SOCAWT 思维框架帮助用户组织需求，直接生成自然语言提示词。

Step 1：需求理解（9 要素提问清单）

提取用户描述中的关键信息。用以下清单系统性引导用户表达需求。

> 设计说明：9 要素 = 3 项需求上下文（用途/限制/输出质量）+ SOCAWT 六维视觉维度。对外使用 9 要素提问（用户友好），对内使用 SOCAWT 组织（专业分析），本质是一套语言的两面。映射关系见表格最后一列。

序号	要素	关键问题	示例	SOCAWT 映射
---	---	---	---	---
1	用途	这张图用来做什么？	"用于电商主图"、"小说封面"、"朋友圈海报"	需求上下文
2	主题	画面围绕什么主题？	"环保公益"、"科技创新"、"浪漫婚礼"	C — Core
3	主体	画面核心元素是什么？	"一位穿旗袍的女性"、"一台银色笔记本电脑"	O — Object
4	风格	用什么视觉风格？	"电影感摄影"、"扁平插画"、"3D 渲染"	A — Artistry
5	构图	横版还是竖版？主体在哪？	"竖版 9:16，主体居中偏左"	S — Space
6	文字	需要文字吗？写什么？	"主标题写'限时特惠'，副标题..."	T — Type
7	色彩	主色调？情绪色彩？	"暖橙色调，传递活力感"	W — Wash
8	限制	不要什么？必须保留什么？	"不要人物，不要杂乱背景"	需求上下文
9	输出质量	分辨率？用途？	"4K，适合印刷"、"1080px 正方形，适合小红书"	需求上下文

不同类型图片的关注重点：

图片类型	分析重点	容易翻车的地方
---	---	---
人物写真	面部特征、表情、光线方向、背景虚化程度	不写清人物年龄/性别/服装，AI 随机生成
产品图	材质细节、光影方向、背景干净度、摆放角度	不写清"不能改"的结构/标签/颜色，AI 乱改
海报设计	文字层级、信息架构、视觉隐喻、留白比例	文字不加引号，导致错别字或遗漏
插画	画风一致性、角色特征、叙事性、色彩情绪	只说"可爱风格"不写具体内容，结果千人一面
信息图	信息层级、模块数量、数据可视化方式	一次塞太多内容，导致信息溢出、可读性差
UI 界面	平台特征、组件规范、交互状态、文字可读性	不给平台信息，AI 混用 iOS/Android/Web 风格
艺术抽象	情绪表达、色彩关系、构图张力、笔触质感	只说"抽象"不写情绪/概念，结果空洞无意义

> 若用户描述已包含足够信息，直接跳到 Step 3。若信息不足，用 1-2 个问题补充关键缺失维度（优先：用途、主体、风格、构图比例）。

Step 2：SOCAWT 结构化

将 Step 1 收集到的信息，按 SOCAWT 六维重新组织。映射关系：主题→C、主体→O、风格→A、构图→S、文字→T、色彩→W，用途/限制/输出质量作为 brief 的上下文信息。

> 为什么用两套词？ 9 要素是"面向用户的提问语言"（用户不懂 SOCAWT 也能答），SOCAWT 是"面向视觉的分析语言"（专业结构化）。你从用户那收集到的信息，翻译到 SOCAWT 框架里就行了。

引导用户（或自我补充）完善以下维度：

维度	需明确的问题
---	---
S — Space（空间）	横版还是竖版？主体位置？构图偏好？镜头感？
O — Object（主体）	主体是什么？外观特征？动作/状态？
C — Core（核心）	画面想表达什么概念/情绪？有什么视觉隐喻？
A — Artistry（艺术表现）	对比手法？质感？艺术流派参考？
W — Wash（色彩）	主色调？冷暖？情绪色彩？
T — Type（文字/层级）	需要文字吗？什么文字？排版要求？

> 若用户描述已包含足够信息，直接跳到 Step 3。若信息不足，用 1-2 个问题补充关键缺失维度（优先 S、O、W）。

Step 3：选择模板并生成提示词

根据图片类型选择对应模板：

影像类（摄影、电影感、写实）→ 模板 A（导演口述式）
设计类（海报、插画、信息图、UI）→ 模板 B（设计简报式）
艺术抽象类（抽象画、纯艺术、实验视觉）→ 模板 C（艺术表达式）

模板详见 references/prompt-craft.md（提示词工程手册）。

模式二：分析图片提取提示词

当用户提供了图片时，使用多模态能力分析图片，输出 SOCAWT 结构化分析 + 可复现的文生图提示词。

Step 0：获取图片并确认

接收用户提供的图片（附件、URL 等）
确认图片已成功加载且清晰可见
若图片模糊、损坏或无法识别，告知用户并提供替代方案（转入模式一）

Step 1：判断图片类型

分析图片属于哪一类，决定后续分析侧重和提示词模板：

类型	特征	提示词模板
---	---	---
A 影像类	摄影、电影感图像、写实渲染，关注"瞬间"与"光影"	模板 A（导演口述式）
B 设计类	海报、信息图、书籍插画、UI，关注"信息架构"与"视觉隐喻"	模板 B（设计简报式）
C 艺术抽象类	抽象画、实验视觉、纯艺术，关注"色彩/构图/情绪表达"	模板 C（艺术表达式）

判断依据：

图片是"捕捉瞬间"（摄影/写实）→ A 类
图片是"传递信息/有组织构图"（海报/插画/信息图）→ B 类
图片是"纯艺术表达/抽象构成"（抽象画/实验艺术）→ C 类
边界模糊时（如照片级写实插画），选择"最像"的一类，或在分析中注明"兼具 A/B 类特征"

Step 2：自适应 SOCAWT 分析

2.1 加载参考框架

读取 references/soca-wt.md，掌握六维分析框架的完整定义。

> Fallback 机制：若无法读取 references/soca-wt.md，直接使用 Step 2.3 的核心检查点继续执行，不要中断流程。

2.2 自适应分析深度

根据图片复杂度选择分析维度，控制输出长度（避免 token 超限）：

图片复杂度	判断标准	分析维度	每维度控制
---	---	---	---
简单	单一主体、背景简洁、无文字、常见场景	S + O + W	每维 2-3 个观察点
中等	多主体互动、有明确叙事、有设计意图	S + O + C + W	每维 3-5 个观察点
复杂	信息密度高、多层级构图、有文字/隐喻/艺术手法	S + O + C + A + W + T	每维 4-6 个观察点

复杂度判断规则：

图片中只有 1 个主体 + 纯色/模糊背景 → 简单
图片中有 2-3 个主体 + 有环境/氛围 + 无明显文字 → 中等
图片中有 3+ 主体 / 有文字排版 / 有明显视觉隐喻 / 复杂艺术手法 → 复杂

输出长度控制：

简单：总分析控制在 800 字以内
中等：总分析控制在 1500 字以内
复杂：总分析控制在 2500 字以内

2.3 六维分析执行

对每个选中的维度进行结构化观察。以下是各维度的核心检查点（完整定义见 references/soca-wt.md）：

S — Space：构图结构、透视与景深、镜头与视角、空间比例、视觉路径、画幅比例、背景环境
O — Object：主体识别、外观描述、行为/状态、大小关系、重叠遮挡
C — Core：核心隐喻/象征、视觉锚点、决定性瞬间（影像类）、概念表达（抽象类）、叙事元素
A — Artistry：对比手法、平衡与构图、节奏与重复、强调技巧、质感纹理、艺术手法
W — Wash：色彩 palette（60/30/10）、色彩和谐类型、色彩属性、色彩温度、色彩心理、光影色彩、渐变过渡
T — Type：有文字 → 内容/位置/层级/字体/效果/排版；无文字 → 视觉层级/强调技巧/视觉路径/信息组织

Step 3：生成自然语言提示词

读取 references/prompt-craft.md，获取详细的提示词模板、写作技巧和模型适配建议。

根据图片类型选择对应模板。全部用自然语言句子写作，不用关键词堆砌。

> 重要原则：即梦、GPT-Image-2、Nano Banana 均支持自然语言提示词。写作方式应像"向一位画家/摄影师口述你的需求"。

通用写作原则

用完整句子，不用逗号分隔的关键词（参见避坑指南：错误 1）
把"任务要求"说清楚：说明图片类型、文字要求、限制条件
描述顺序 = 视线顺序：先说主体，再说环境，再说细节，最后说风格和技术要求

模板 A（影像类 / 摄影 / 电影感）—— 导演口述式

请生成一张[横版 16:9 / 竖版 9:16]的照片。

画面中，[主体]正在[做什么]，位于[位置]，
周围环境是[描述环境与氛围]，
光线条件是[描述光源与光影氛围]，
整体色彩偏向[描述色调与色彩感觉]。

参考[电影名称 / 摄影师 / 艺术风格]的感觉。

模板 B（设计类 / 海报 / 插画 / 信息图）—— 设计简报式

请生成一张[横版/竖版，具体尺寸]的[海报/信息图/插画]。

这张图的类型是：[说明这是什么图、用来做什么]

画面布局与网格系统：
- 网格结构：[单列 / 双栏 / 三栏 / 不对称网格]
- 主标题写"[原文内容]"，字号约为画面高度的[1/6~1/8]，
  字体用[字体风格]，颜色[颜色]，位置在[具体位置]
- 副标题字号为主标题的[50%~60%]，行高[1.2~1.5倍]
- [其他文字层级同样标注字号比例和位置]

核心视觉元素：[描述核心图形/插画内容，包括拟人化手法和隐喻]

风格参考：[艺术流派 / 设计师 / 视觉风格]
材质/质感参考：[纸张/印刷/屏幕显示的质感描述]

模板 C（艺术抽象类 / 纯艺术）—— 艺术表达式

请生成一张[尺寸]的[油画/水彩/丙烯/数字艺术/抽象画]。

我想表达的感觉是：[用自然语言描述情绪/理念，可以用比喻]

色彩上：[描述色彩关系与情绪]

构图和笔触：[描述构图结构与技法]

参考[艺术家/流派]的感觉，但加入[你的个人要求]。

针对不同模型的适配

模型	提示词建议	特别注意事项
---	---	---
即梦（Jimeng）	中文自然语言，描述尽量具体	支持对话式修改；对中文文字渲染支持较好
GPT-Image-2	中文或英文自然语言均可	擅长带字图片；文字内容务必用""标出原文
Nano Banana	自然语言，支持对话修改	支持局部编辑指令
Midjourney 6/7	自然语言有效，可混合短语	支持更自由的描述方式
Stable Diffusion XL	自然语言有效	可用 ComfyUI 节点精确控制

Step 4：可选优化

输出后主动询问用户：

"需要我根据这张图的风格，把提示词写得更自然、更像'对人说话'吗？"
"要我针对特定模型（即梦 / GPT-Image-2 / Nano Banana）调整提示词语气吗？"
"需要我生成任务规格版提示词吗？（适用于带字图片、信息图等精准控制场景）"

常见错误与避坑指南

新手最容易犯的 5 个错误

错误 1：只写风格，不写内容

翻车表现：高级感、电影感、氛围感 → AI 不知道画什么，随机生成
正确做法：风格 + 内容 + 用途一起写
不要只写：高级感产品图
要写：为高端护肤品牌拍摄的产品图，主体是一瓶磨砂玻璃瓶装的精华液，放在白色大理石台面上，侧光打出玻璃质感，背景柔和虚化。不要人物，不要有文字。竖版 3:4，适合电商详情页。

错误 2：只说不要乱改，却不说哪里不能改

翻车表现：不要乱改产品图 → AI 不知道"产品图"具体指什么，可能改掉产品颜色、形状、标签
正确做法：明确标注"不能改"的元素
不要写：不要改我的产品图
要写：主体是一瓶蓝色玻璃瓶的香水，保持当前瓶身形状、蓝色渐变、金色瓶盖不变。只改背景为春日花园场景，不要改产品本身。

错误 3：文字不加引号

翻车表现：主标题写新年大促 → AI 可能写成"新春促销"、"新年特惠"或乱码
正确做法：所有需要精确呈现的文字用 "" 标出
不要写：主标题写新年大促
要写：主标题写"新年大促"四个字，用粗黑体，红色，位于画面正上方

错误 4：把太多目标一次塞进去

翻车表现：帮我做一个品牌整套视觉，包括 logo、海报、详情页、社交媒体封面、名片 → 结果每个都只做一半，质量极差
正确做法：一次只做一个，分步迭代
第一步：先生成主视觉海报
第二步：基于主视觉调整尺寸做社交媒体封面
第三步：再逐步扩展到其他物料
每次只给一个明确任务，迭代 2-3 次比一次塞 10 个目标效果好 10 倍

错误 5：不给画面比例

翻车表现：帮我画一张图 → AI 默认生成正方形，不适合你的发布场景
正确做法：开头就说明画布比例
小红书笔记封面：竖版 3:4
抖音视频封面：竖版 9:16
微信公众号头图：横版 2.35:1
电商主图：正方形 1:1
电脑壁纸：横版 16:9
手机壁纸：竖版 9:19

错误 6：不给参考系

翻车表现：高级感、极简风、有设计感 → AI 不知道你的"高级感"和别人的"高级感"有什么区别，随机输出一张"看起来还行但完全不是你想要的"图
正确做法：视觉是相对感知，必须给一个参照物作为锚点
不要写：高级感产品图，极简风格
要写：为北欧家具品牌创作产品图。参考 Aesop 品牌的视觉调性——克制、自然、有呼吸感。主体是一把胡桃木椅子，放在浅米色亚麻布背景上。光线柔和，没有硬边阴影。色彩以大地色系为主，点缀少量黑色金属细节。输出正方形 1:1，适合 Instagram。
不要说电影感，要说参考《银翼杀手2049》的冷峻色调和广角构图
不要说可爱插画，要说参考《Klaus》动画的角色造型比例和用色
不要说复古海报，要说参考穆夏（Mucha）的装饰性曲线和柔色调花卉元素

> 原理：没有参考系的风格词就像没有刻度的温度计——你知道要"热一点"，但不知道具体几度。给 AI 一个具体的参照物（电影/品牌/艺术家），它才能精准复现你想要的美学气质。

注意事项

SOCAWT 分析适用于所有类型的图片
类型判断是第一步，决定后续分析侧重和提示词模板
对于模糊边界的图片，以"最像哪类"为准，或注明"兼具多类特征"
始终描述视觉风格（照片写实？扁平插画？3D 渲染？油画？像素艺术？）作为提示词的一部分
图中无文字时，T 维度自动切换为"视觉层级分析"
任务规格版（Version C）特别适合：带字海报、信息图、商品主图、UI 页面等"要求精准控制"的场景
所有提示词均为自然语言句子，不使用 SD 风格的 --ar、(weight:1.2) 等语法
模式二必须使用多模态模型。若当前环境不支持图像输入，明确告知用户，提供模式一替代方案
若图片质量过低（过度模糊、分辨率极低、严重损坏），无法进行有效分析，应如实告知用户
9 要素与 SOCAWT 本质是一套语言的两面：9 要素面向用户提问，SOCAWT 面向视觉分析。收集信息用 9 要素，结构化思考用 SOCAWT
当代 AI 视觉已出现"完美无瑕疲劳"，适度加入缺陷美学（胶片颗粒、轻微过曝、印刷错位、手绘不完美、布料褶皱）能让画面更有生命力和真实感

AI绘图大师

概述