← 返回
未分类

image-bridge-local

本地图片→文字桥接技能,优先走本地 ollama 本地模型,失败后回退到 Codex vision,输出可直接喂给 DeepSeek/OpenCode 的 Markdown 语义稿。
本地图片→文字桥接技能,优先走本地 ollama 本地模型,失败后回退到 Codex vision,输出可直接喂给 DeepSeek/OpenCode 的 Markdown 语义稿。
Agent Kindom
未分类 community v1.0.0 1 版本 100000 Key: 无需
★ 0
Stars
📥 11
下载
💾 0
安装
1
版本
#latest

概述

图片→文字桥接(本地优先)

Build a bounded local-first image-to-text bridge. This skill standardizes how screenshots, charts, and document images are converted into text-model-safe Markdown for downstream text-only models.

Core Promise

  1. vision-context.md
    • 图片关键内容 + OCR + 图表结构 + 关键信息不确定性
  2. text-model-input.md
    • 当输入是 Markdown 且使用 --compose 时,返回可直接喂给文本模型的一体化文稿
  3. manifest.json
    • 每次执行后的元数据与环境状态,便于快速回溯

Trigger

Use this skill when the task is to:

  • 把图片/截图转给文本模型理解
  • 转换 Markdown 文档中的图片到可读文本说明
  • 在本地优先、低 token 条件下完成图片语义提取
  • 需要为 DeepSeek/OpenCode 等文本模型补齐图片上下文

If the user only wants image generation or style rendering, use codex-image-bridge instead.

Non-Trigger Boundary

Do not use this skill for:

  • Prompt-to-image 任务(请走 codex-image-bridge
  • 图片编辑、OCR 后修图、裁剪、拼接
  • 需要外部 API 转码但不产出 Markdown 的场景

Constraints

  • Image-to-text is privacy-first by default: local provider first, no image leaves the machine.
  • 模型不稳定时按「本地 ollama → 更轻量本地模型 → 回退到 Codex vision」执行。
  • 失败日志不应直接发给用户,优先输出可重跑建议和下一步动作。

Required Inputs

  1. --check-env
    • 检查 ollama_reachablecodex_exists 等关键状态
  2. 图片输入
    • --image
  3. Markdown 输入(可选)
    • --markdown --compose

Output files are written under:

  • vision-context.md
  • text-model-input.md(compose 时)
  • manifest.json

脚本路径:

  • /Users/Admin/.agents/skills/codex-image-bridge-local/scripts/local_image_describe.py

Workflow

1) 环境检查

Run:

local_image_describe.py --check-env

If ollama_reachable is false, skip local image recognition and jump to Step 3.

2) 先本地识别

Default route:

local_image_describe.py --provider ollama --image "/path/to/screenshot.png"

Fallback sequence when local fails:

  1. ollama 切换到 --ollama-model minicpm-v:8b(显存友好)
  2. ollama 切换到 --ollama-model llama3.2-vision:11b(语义密度优先)
  3. 使用 --provider codex(云端回退)

3) 结果产出

For single-image usage:

local_image_describe.py --provider ollama --image "~/Desktop/架构图.png"

For article usage:

local_image_describe.py --provider ollama --markdown "/path/to/article.md" --compose

4) 后处理与投喂

vision-context.mdtext-model-input.md 的内容复制给文本模型继续推理。

Provider Rules

  • ollama(默认): 本地优先,主打隐私和稳定成本
  • codex(兜底): 当本地链路连续 3 次尝试失败时使用
  • --ollama-model 仅在显存或稳定性问题时调整,不必每次替换

Common Failure Map

症状处理
------------
ollama_connection_failedollama serve,再重试
model_not_foundollama pull gemma4:12b,再尝试 minicpm-v:8b
ollama_empty_responseminicpm-v:8b,必要时回退到 codex
codex_timeout延长超时后重试(例如 --timeout-seconds 360
图片缺失先修正路径,再重跑
输出模糊回退高精度模型或 codex 强制重跑

Output Contract

When returning user-facing results, include exactly:

  1. providermodel 实际使用情况
  2. 成功输出文件名与路径
  3. 失败原因与下一步建议(若有)
  4. 是否建议再用 codex 回退

Red Flags

  • 不要把原始图片直接喂给外部模型(除非用户明确要求)
  • 不要在单步失败后重复同一失败参数
  • 不要省略 --check-env 中的关键异常项

版本历史

共 1 个版本

  • v1.0.0 Initial release 当前
    2026-06-08 19:31 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

design-media

Openai Whisper

steipete
使用 Whisper CLI 进行本地语音转文字(无需 API 密钥)
★ 330 📥 93,602
design-media

UI/UX Pro Max

xobi667
提供 UI/UX 设计智能与实现指导,帮助打造精美界面。适用于 UI 设计、UX 流程、信息架构、视觉风格、设计系统/标记、组件规格、文案/微文案、无障碍及前端 UI(HTML/CSS/JS、React、Next.js、Vue、Svelte
★ 216 📥 47,255
knowledge-management

human-modeler

user_3f668d19
用于从日记、笔记、访谈、聊天记录、项目复盘、阅读痕迹、外部反馈等长期材料中建立有证据边界的人物模型。凡是用户想理解一个人、分析自己、总结稳定模式、区分自我叙事与真实行为、生成协作简报、更新人物模型,或在具体场景中做有限预测时,都应使用这个
★ 0 📥 80