← 返回
未分类

AI绘图大师

Visual analysis and text-to-image prompt engineering using the SOCAWT framework. Supports two modes: (1) direct prompt creation from user descriptions, and (2) image analysis with prompt extraction via multimodal LLM. Detects image type first, then applies adaptive analysis depth and the appropriate prompt template. All prompts are written in natural language sentences, suitable for modern models like Jimeng, GPT-Image-2, and Nano Banana.
基于六维视觉分析框架的高级AI绘图提示词工程技能。它专为即梦、GPT-Image-2、Nano Banana 等新一代文生图模型量身定制,能够将模糊的创意或复杂的画面,转化为表现力极强的自然语言提示词。 SOCAWT 六维框架解析:不只是看表面,通过系统化的视觉分析框架深度解构画面,确保提示词逻辑严密、细节拉满。 🗣️ 自然语言叙事流:彻底抛弃传统的“标签式/词汇堆砌”写法,采用符合人类语感与模型深度理解的自然语言长句,激发新一代模型的最佳生成效果。 🔄 双模式智能切换: 模式一:灵感创作 — 没有参考图?只需文字描述你的想象,即可生成高质量提示词。 模式二:逆向提取 — 提供参考图,自动识别图像类型,自适应分析深度,精准提取并还原画面提示词。
noangel
未分类 community v1.0.1 2 版本 100000 Key: 无需
★ 2
Stars
📥 114
下载
💾 0
安装
2
版本
#latest

概述

ImagePrompt-SOCAWT — 视觉分析与提示词工程

基于 SOCAWT 六维视觉分析框架,支持两种工作模式:直接创作提示词、分析图片提取提示词。提示词使用自然语言句子(非关键词堆砌),适用于即梦、GPT-Image-2、Nano Banana 等新一代模型。


适用场景(双模式)

模式触发条件所需能力核心流程
------------
模式一:直接创作用户用文字描述需求,无图片输入文本理解 + 框架思维需求理解 → SOCAWT 组织 → 模板生成
模式二:分析图片用户提供了图片,要求分析或提取提示词多模态大语言模型(必须能看图)获取图片 → 类型判断 → 自适应分析 → 生成提示词

> 重要:模式二必须使用支持图像输入的多模态模型。若当前模型不支持图像输入,请明确告知用户无法执行图片分析,可转入模式一(根据用户描述创作提示词)。


工作模式判断

根据用户输入自动判断:

  1. 用户提供了图片(附件、URL、base64)→ 进入模式二
  2. 用户未提供图片,但文字描述中包含图片相关需求(如"帮我分析这张图"但没有实际图片)→ 询问用户是否上传图片,或转入模式一根据描述创作
  3. 用户仅文字描述需求(如"帮我写个赛博朋克城市夜景的提示词")→ 进入模式一

模式一:直接创作提示词

当用户用文字描述需求时,用 SOCAWT 思维框架帮助用户组织需求,直接生成自然语言提示词。

Step 1:需求理解(9 要素提问清单)

提取用户描述中的关键信息。用以下清单系统性引导用户表达需求。

> 设计说明:9 要素 = 3 项需求上下文(用途/限制/输出质量)+ SOCAWT 六维视觉维度。对外使用 9 要素提问(用户友好),对内使用 SOCAWT 组织(专业分析),本质是一套语言的两面。映射关系见表格最后一列。

序号要素关键问题示例SOCAWT 映射
---------------
1用途这张图用来做什么?"用于电商主图"、"小说封面"、"朋友圈海报"需求上下文
2主题画面围绕什么主题?"环保公益"、"科技创新"、"浪漫婚礼"C — Core
3主体画面核心元素是什么?"一位穿旗袍的女性"、"一台银色笔记本电脑"O — Object
4风格用什么视觉风格?"电影感摄影"、"扁平插画"、"3D 渲染"A — Artistry
5构图横版还是竖版?主体在哪?"竖版 9:16,主体居中偏左"S — Space
6文字需要文字吗?写什么?"主标题写'限时特惠',副标题..."T — Type
7色彩主色调?情绪色彩?"暖橙色调,传递活力感"W — Wash
8限制不要什么?必须保留什么?"不要人物,不要杂乱背景"需求上下文
9输出质量分辨率?用途?"4K,适合印刷"、"1080px 正方形,适合小红书"需求上下文

不同类型图片的关注重点

图片类型分析重点容易翻车的地方
---------
人物写真面部特征、表情、光线方向、背景虚化程度不写清人物年龄/性别/服装,AI 随机生成
产品图材质细节、光影方向、背景干净度、摆放角度不写清"不能改"的结构/标签/颜色,AI 乱改
海报设计文字层级、信息架构、视觉隐喻、留白比例文字不加引号,导致错别字或遗漏
插画画风一致性、角色特征、叙事性、色彩情绪只说"可爱风格"不写具体内容,结果千人一面
信息图信息层级、模块数量、数据可视化方式一次塞太多内容,导致信息溢出、可读性差
UI 界面平台特征、组件规范、交互状态、文字可读性不给平台信息,AI 混用 iOS/Android/Web 风格
艺术抽象情绪表达、色彩关系、构图张力、笔触质感只说"抽象"不写情绪/概念,结果空洞无意义

> 若用户描述已包含足够信息,直接跳到 Step 3。若信息不足,用 1-2 个问题补充关键缺失维度(优先:用途、主体、风格、构图比例)。

Step 2:SOCAWT 结构化

将 Step 1 收集到的信息,按 SOCAWT 六维重新组织。映射关系:主题→C、主体→O、风格→A、构图→S、文字→T、色彩→W,用途/限制/输出质量作为 brief 的上下文信息。

> 为什么用两套词? 9 要素是"面向用户的提问语言"(用户不懂 SOCAWT 也能答),SOCAWT 是"面向视觉的分析语言"(专业结构化)。你从用户那收集到的信息,翻译到 SOCAWT 框架里就行了。

引导用户(或自我补充)完善以下维度:

维度需明确的问题
------
S — Space(空间)横版还是竖版?主体位置?构图偏好?镜头感?
O — Object(主体)主体是什么?外观特征?动作/状态?
C — Core(核心)画面想表达什么概念/情绪?有什么视觉隐喻?
A — Artistry(艺术表现)对比手法?质感?艺术流派参考?
W — Wash(色彩)主色调?冷暖?情绪色彩?
T — Type(文字/层级)需要文字吗?什么文字?排版要求?

> 若用户描述已包含足够信息,直接跳到 Step 3。若信息不足,用 1-2 个问题补充关键缺失维度(优先 S、O、W)。

Step 3:选择模板并生成提示词

根据图片类型选择对应模板:

  • 影像类(摄影、电影感、写实)→ 模板 A(导演口述式)
  • 设计类(海报、插画、信息图、UI)→ 模板 B(设计简报式)
  • 艺术抽象类(抽象画、纯艺术、实验视觉)→ 模板 C(艺术表达式)

模板详见 references/prompt-craft.md(提示词工程手册)。


模式二:分析图片提取提示词

当用户提供了图片时,使用多模态能力分析图片,输出 SOCAWT 结构化分析 + 可复现的文生图提示词。

Step 0:获取图片并确认

  1. 接收用户提供的图片(附件、URL 等)
  2. 确认图片已成功加载且清晰可见
  3. 若图片模糊、损坏或无法识别,告知用户并提供替代方案(转入模式一)

Step 1:判断图片类型

分析图片属于哪一类,决定后续分析侧重和提示词模板:

类型特征提示词模板
---------
A 影像类摄影、电影感图像、写实渲染,关注"瞬间"与"光影"模板 A(导演口述式)
B 设计类海报、信息图、书籍插画、UI,关注"信息架构"与"视觉隐喻"模板 B(设计简报式)
C 艺术抽象类抽象画、实验视觉、纯艺术,关注"色彩/构图/情绪表达"模板 C(艺术表达式)

判断依据:

  • 图片是"捕捉瞬间"(摄影/写实)→ A 类
  • 图片是"传递信息/有组织构图"(海报/插画/信息图)→ B 类
  • 图片是"纯艺术表达/抽象构成"(抽象画/实验艺术)→ C 类
  • 边界模糊时(如照片级写实插画),选择"最像"的一类,或在分析中注明"兼具 A/B 类特征"

Step 2:自适应 SOCAWT 分析

2.1 加载参考框架

读取 references/soca-wt.md,掌握六维分析框架的完整定义。

> Fallback 机制:若无法读取 references/soca-wt.md,直接使用 Step 2.3 的核心检查点继续执行,不要中断流程。

2.2 自适应分析深度

根据图片复杂度选择分析维度,控制输出长度(避免 token 超限):

图片复杂度判断标准分析维度每维度控制
------------
简单单一主体、背景简洁、无文字、常见场景S + O + W每维 2-3 个观察点
中等多主体互动、有明确叙事、有设计意图S + O + C + W每维 3-5 个观察点
复杂信息密度高、多层级构图、有文字/隐喻/艺术手法S + O + C + A + W + T每维 4-6 个观察点

复杂度判断规则

  • 图片中只有 1 个主体 + 纯色/模糊背景 → 简单
  • 图片中有 2-3 个主体 + 有环境/氛围 + 无明显文字 → 中等
  • 图片中有 3+ 主体 / 有文字排版 / 有明显视觉隐喻 / 复杂艺术手法 → 复杂

输出长度控制

  • 简单:总分析控制在 800 字以内
  • 中等:总分析控制在 1500 字以内
  • 复杂:总分析控制在 2500 字以内

2.3 六维分析执行

对每个选中的维度进行结构化观察。以下是各维度的核心检查点(完整定义见 references/soca-wt.md):

  • S — Space:构图结构、透视与景深、镜头与视角、空间比例、视觉路径、画幅比例、背景环境
  • O — Object:主体识别、外观描述、行为/状态、大小关系、重叠遮挡
  • C — Core:核心隐喻/象征、视觉锚点、决定性瞬间(影像类)、概念表达(抽象类)、叙事元素
  • A — Artistry:对比手法、平衡与构图、节奏与重复、强调技巧、质感纹理、艺术手法
  • W — Wash:色彩 palette(60/30/10)、色彩和谐类型、色彩属性、色彩温度、色彩心理、光影色彩、渐变过渡
  • T — Type:有文字 → 内容/位置/层级/字体/效果/排版;无文字 → 视觉层级/强调技巧/视觉路径/信息组织

Step 3:生成自然语言提示词

读取 references/prompt-craft.md,获取详细的提示词模板、写作技巧和模型适配建议。

根据图片类型选择对应模板。全部用自然语言句子写作,不用关键词堆砌。

> 重要原则:即梦、GPT-Image-2、Nano Banana 均支持自然语言提示词。写作方式应像"向一位画家/摄影师口述你的需求"。

通用写作原则

  1. 用完整句子,不用逗号分隔的关键词(参见避坑指南:错误 1)
  2. 把"任务要求"说清楚:说明图片类型、文字要求、限制条件
  3. 描述顺序 = 视线顺序:先说主体,再说环境,再说细节,最后说风格和技术要求

模板 A(影像类 / 摄影 / 电影感)—— 导演口述式

请生成一张[横版 16:9 / 竖版 9:16]的照片。

画面中,[主体]正在[做什么],位于[位置],
周围环境是[描述环境与氛围],
光线条件是[描述光源与光影氛围],
整体色彩偏向[描述色调与色彩感觉]。

参考[电影名称 / 摄影师 / 艺术风格]的感觉。

模板 B(设计类 / 海报 / 插画 / 信息图)—— 设计简报式

请生成一张[横版/竖版,具体尺寸]的[海报/信息图/插画]。

这张图的类型是:[说明这是什么图、用来做什么]

画面布局与网格系统:
- 网格结构:[单列 / 双栏 / 三栏 / 不对称网格]
- 主标题写"[原文内容]",字号约为画面高度的[1/6~1/8],
  字体用[字体风格],颜色[颜色],位置在[具体位置]
- 副标题字号为主标题的[50%~60%],行高[1.2~1.5倍]
- [其他文字层级同样标注字号比例和位置]

核心视觉元素:[描述核心图形/插画内容,包括拟人化手法和隐喻]

风格参考:[艺术流派 / 设计师 / 视觉风格]
材质/质感参考:[纸张/印刷/屏幕显示的质感描述]

模板 C(艺术抽象类 / 纯艺术)—— 艺术表达式

请生成一张[尺寸]的[油画/水彩/丙烯/数字艺术/抽象画]。

我想表达的感觉是:[用自然语言描述情绪/理念,可以用比喻]

色彩上:[描述色彩关系与情绪]

构图和笔触:[描述构图结构与技法]

参考[艺术家/流派]的感觉,但加入[你的个人要求]。

针对不同模型的适配

模型提示词建议特别注意事项
---------
即梦(Jimeng)中文自然语言,描述尽量具体支持对话式修改;对中文文字渲染支持较好
GPT-Image-2中文或英文自然语言均可擅长带字图片;文字内容务必用""标出原文
Nano Banana自然语言,支持对话修改支持局部编辑指令
Midjourney 6/7自然语言有效,可混合短语支持更自由的描述方式
Stable Diffusion XL自然语言有效可用 ComfyUI 节点精确控制

Step 4:可选优化

输出后主动询问用户:

  • "需要我根据这张图的风格,把提示词写得更自然、更像'对人说话'吗?"
  • "要我针对特定模型(即梦 / GPT-Image-2 / Nano Banana)调整提示词语气吗?"
  • "需要我生成任务规格版提示词吗?(适用于带字图片、信息图等精准控制场景)"

常见错误与避坑指南

新手最容易犯的 5 个错误

错误 1:只写风格,不写内容

  • 翻车表现高级感、电影感、氛围感 → AI 不知道画什么,随机生成
  • 正确做法:风格 + 内容 + 用途一起写
  • 不要只写:高级感产品图
  • 要写:为高端护肤品牌拍摄的产品图,主体是一瓶磨砂玻璃瓶装的精华液,放在白色大理石台面上,侧光打出玻璃质感,背景柔和虚化。不要人物,不要有文字。竖版 3:4,适合电商详情页。

错误 2:只说不要乱改,却不说哪里不能改

  • 翻车表现不要乱改产品图 → AI 不知道"产品图"具体指什么,可能改掉产品颜色、形状、标签
  • 正确做法:明确标注"不能改"的元素
  • 不要写:不要改我的产品图
  • 要写:主体是一瓶蓝色玻璃瓶的香水,保持当前瓶身形状、蓝色渐变、金色瓶盖不变。只改背景为春日花园场景,不要改产品本身。

错误 3:文字不加引号

  • 翻车表现主标题写新年大促 → AI 可能写成"新春促销"、"新年特惠"或乱码
  • 正确做法:所有需要精确呈现的文字用 "" 标出
  • 不要写:主标题写新年大促
  • 要写:主标题写"新年大促"四个字,用粗黑体,红色,位于画面正上方

错误 4:把太多目标一次塞进去

  • 翻车表现帮我做一个品牌整套视觉,包括 logo、海报、详情页、社交媒体封面、名片 → 结果每个都只做一半,质量极差
  • 正确做法:一次只做一个,分步迭代
  • 第一步:先生成主视觉海报
  • 第二步:基于主视觉调整尺寸做社交媒体封面
  • 第三步:再逐步扩展到其他物料
  • 每次只给一个明确任务,迭代 2-3 次比一次塞 10 个目标效果好 10 倍

错误 5:不给画面比例

  • 翻车表现帮我画一张图 → AI 默认生成正方形,不适合你的发布场景
  • 正确做法:开头就说明画布比例
  • 小红书笔记封面:竖版 3:4
  • 抖音视频封面:竖版 9:16
  • 微信公众号头图:横版 2.35:1
  • 电商主图:正方形 1:1
  • 电脑壁纸:横版 16:9
  • 手机壁纸:竖版 9:19

错误 6:不给参考系

  • 翻车表现高级感、极简风、有设计感 → AI 不知道你的"高级感"和别人的"高级感"有什么区别,随机输出一张"看起来还行但完全不是你想要的"图
  • 正确做法:视觉是相对感知,必须给一个参照物作为锚点
  • 不要写:高级感产品图,极简风格
  • 要写:为北欧家具品牌创作产品图。参考 Aesop 品牌的视觉调性——克制、自然、有呼吸感。主体是一把胡桃木椅子,放在浅米色亚麻布背景上。光线柔和,没有硬边阴影。色彩以大地色系为主,点缀少量黑色金属细节。输出正方形 1:1,适合 Instagram。
  • 不要说电影感,要说参考《银翼杀手2049》的冷峻色调和广角构图
  • 不要说可爱插画,要说参考《Klaus》动画的角色造型比例和用色
  • 不要说复古海报,要说参考穆夏(Mucha)的装饰性曲线和柔色调花卉元素

> 原理:没有参考系的风格词就像没有刻度的温度计——你知道要"热一点",但不知道具体几度。给 AI 一个具体的参照物(电影/品牌/艺术家),它才能精准复现你想要的美学气质。


注意事项

  • SOCAWT 分析适用于所有类型的图片
  • 类型判断是第一步,决定后续分析侧重和提示词模板
  • 对于模糊边界的图片,以"最像哪类"为准,或注明"兼具多类特征"
  • 始终描述视觉风格(照片写实?扁平插画?3D 渲染?油画?像素艺术?)作为提示词的一部分
  • 图中无文字时,T 维度自动切换为"视觉层级分析"
  • 任务规格版(Version C)特别适合:带字海报、信息图、商品主图、UI 页面等"要求精准控制"的场景
  • 所有提示词均为自然语言句子,不使用 SD 风格的 --ar(weight:1.2) 等语法
  • 模式二必须使用多模态模型。若当前环境不支持图像输入,明确告知用户,提供模式一替代方案
  • 若图片质量过低(过度模糊、分辨率极低、严重损坏),无法进行有效分析,应如实告知用户
  • 9 要素与 SOCAWT 本质是一套语言的两面:9 要素面向用户提问,SOCAWT 面向视觉分析。收集信息用 9 要素,结构化思考用 SOCAWT
  • 当代 AI 视觉已出现"完美无瑕疲劳",适度加入缺陷美学(胶片颗粒、轻微过曝、印刷错位、手绘不完美、布料褶皱)能让画面更有生命力和真实感

版本历史

共 2 个版本

  • v1.0.1 更新描述 当前
    2026-05-25 21:55 安全 安全
  • v1.0.0 Initial release
    2026-05-25 21:47 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

design-media

UI/UX Pro Max

xobi667
提供 UI/UX 设计智能与实现指导,帮助打造精美界面。适用于 UI 设计、UX 流程、信息架构、视觉风格、设计系统/标记、组件规格、文案/微文案、无障碍及前端 UI(HTML/CSS/JS、React、Next.js、Vue、Svelte
★ 216 📥 46,618
design-media

Video Frames

steipete
使用 ffmpeg 从视频中提取帧或短片。
★ 132 📥 52,667
design-media

Openai Whisper

steipete
使用 Whisper CLI 进行本地语音转文字(无需 API 密钥)
★ 329 📥 92,996