← 返回
未分类

moondream-vision-zc

zhangchong
未分类 community v1.0.0 1 版本 100000 Key: 无需
★ 0
Stars
📥 161
下载
💾 0
安装
1
版本
#latest

概述

SKILL.md - Moondream Vision

name: moondream-vision-zc

description: 使用本地 Ollama 部署的 Moondream 模型进行图像理解,并将结果返回给 OpenClaw。该 Skill 适配 OpenClaw 2026 版本的多模态插件机制,可在聊天中直接发送图片或引用本地文件路径。

type: command

环境准备

  1. 确保 Ollama 已安装
    • Windows:winget install ollama 或从 https://ollama.com/download 下载并安装。
    • 安装完成后,在 PowerShell 中运行 ollama serve,确保后台服务在 11434 端口监听。
  2. 拉取 Moondream 模型(如果尚未本地缓存)

```powershell

ollama pull moondream

```

  • 若已有本地模型,可跳过此步骤。
  1. 验证模型

```powershell

ollama run moondream "一张猫的图片"

```

  • 返回文字描述即表示模型工作正常。
  1. 安装 Python 依赖(仅在使用脚本时需要)

```powershell

pip install requests

```

  • 脚本通过 HTTP 调用 Ollama API。

Skill 实现

目录结构

~/.openclaw/skills/moondream-vision/
├─ SKILL.md          # 本文件
└─ scripts/
   └─ moondream_vision.py

scripts/moondream_vision.py

import sys, json, base64, requests, pathlib

OLLAMA_URL = "http://127.0.0.1:11434/api/generate"

def encode_image(path: str) -> str:
    data = pathlib.Path(path).read_bytes()
    return base64.b64encode(data).decode("utf-8")

def run_moondream(image_path: str, prompt: str = ""):
    img_b64 = encode_image(image_path)
    payload = {
        "model": "moondream",
        "prompt": prompt,
        "images": [img_b64],
        "stream": False,
    }
    resp = requests.post(OLLAMA_URL, json=payload)
    resp.raise_for_status()
    result = resp.json()
    # Ollama returns a stream of tokens; when stream=False we get full response in ``response``
    return result.get("response", "")

if __name__ == "__main__":
    if len(sys.argv) < 2:
        sys.stderr.write("Usage: python moondream_vision.py <image_path> [prompt]\n")
        sys.exit(1)
    image = sys.argv[1]
    user_prompt = sys.argv[2] if len(sys.argv) > 2 else ""
    print(run_moondream(image, user_prompt))

在 OpenClaw 中注册命令

~/.openclaw/config/skills.json(若不存在请创建)添加如下条目:

{
  "name": "moondream-vision",
  "command": "python ${skill_dir}/scripts/moondream_vision.py",
  "description": "本地 Moondream 图像理解",
  "usage": "!moondream <image_path> [prompt]",
  "args": ["image_path", "prompt?"],
  "output": "text"
}
  • ${skill_dir} 为此 skill 所在目录的绝对路径,OpenClaw 会在运行时自动替换。
  • 通过 !moondream D:\images\cat.jpg 在聊天中调用。

多模态接入方案说明

  • 模型:Moondream 是轻量级的视觉语言模型,适合本地推理。它通过 Ollama 的 REST API 接收 base64 编码的图像和可选文字提示,返回自然语言描述。
  • 与 GPT‑OSS‑120B 结合
  • 在需要更深层次的推理时,可将 Moondream 的输出作为 系统提示 传递给 GPT‑OSS‑120B,让后者进行复杂的分析、摘要或跨模态推理。
  • 示例工作流:
  1. !moondream img.png ➜ 获得图片描述 desc
  2. 调用 !gpt "基于以下描述,写一段新闻稿:\n${desc}"
    • 性能:Moondream 推理在普通笔记本 CPU 上约 1‑2 秒/图像,GPU 可进一步加速。GPT‑OSS‑120B 仍通过 OpenClaw 统一调度,保持统一日志与审计。

常见问题 & 调试

  • Ollama 未启动:确保 ollama serve 正在运行,检查防火墙是否阻止 11434 端口。
  • 图片过大:Ollama 限制单张图片约 5 MB,建议在本地压缩后再发送。
  • 返回空:确认 prompt 参数非空,或在 payload 中加入 "system": "" 防止模型误判。

使用示例

用户:!moondream C:\Users\Administrator\Pictures\dog.jpg
Assistant: 这是一只棕色的狗,正坐在草地上,注视着镜头。

用户:!moondream C:\Users\Administrator\Pictures\dog.jpg "请把这张图的内容写成一段简短的广告文案"
Assistant: 「爱犬的欢笑,尽在自然」——让您的宠物在绿意盎然的草地上自由奔跑,感受生活的活力。

如有其他需求可进一步扩展,如批量处理、返回 JSON 结构等。

版本历史

共 1 个版本

  • v1.0.0 Initial release 当前
    2026-04-18 12:22 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

design-media

Nano Banana Pro

steipete
使用 Nano Banana Pro (Gemini 3 Pro Image) 生成或编辑图像。支持文生图、图生图及 1K/2K/4K 分辨率,适用于图像创建、修改及编辑请求,使用 --input-image 指定输入图像。
★ 425 📥 116,245
office-efficiency

本地ocr识别pdf转md

user_543d2acf
批量 OCR 处理扫描 PDF,自动生成带文字层的 PDF 并可导出为 Markdown/纯文本。使用场景包括老师 Agent 需要将大量扫描教材 PDF 转化为可检索文本。
★ 2 📥 530
design-media

Openai Whisper

steipete
使用 Whisper CLI 进行本地语音转文字(无需 API 密钥)
★ 329 📥 93,016