← 返回
AI智能

ollama-vision

本地调用 Ollama qwen3-vl:4b 模型自动压缩并分析图片,支持描述、OCR 文字提取和自定义信息抽取。
本地调用 Ollama qwen3-vl:4b 模型自动压缩并分析图片,支持描述、OCR 文字提取和自定义信息抽取。
lzm2023
AI智能 clawhub v1.0.0 1 版本 100000 Key: 无需
★ 0
Stars
📥 670
下载
💾 58
安装
1
版本
#latest

概述

Ollama Vision Skill

本地视觉分析技能,调用 Ollama 的 qwen3-vl:4b 模型分析图片。

Description

此技能允许在保留 Kimi 作为主对话模型的前提下,使用本地部署的 Ollama 视觉模型(qwen3-vl:4b)分析图片内容。支持 OCR、图片描述、文字提取等功能。

Requirements

  • Ollama 必须已安装并运行
  • qwen3-vl:4b 模型必须已下载(或自动下载)
  • Python 3.8+ 环境
  • Pillow 库(用于图片压缩:pip install Pillow

Features

  • 自动压缩:超过 2MB 的图片会自动压缩后再分析
  • 多模式分析:describe(描述)、ocr(文字提取)、extract(自定义提取)
  • 临时文件清理:压缩产生的临时文件会自动删除
  • 质量优先:优先降低 JPEG 质量,必要时缩小尺寸

Tools

analyze_image

分析图片内容,支持多种分析模式。

参数:

  • image_path (string, required): 图片文件的完整路径
  • mode (string, optional): 分析模式,可选值:
  • "describe" - 详细描述图片内容(默认)
  • "ocr" - 提取图片中的所有文字
  • "extract" - 根据自定义提示词提取特定信息
  • prompt (string, optional): 当 mode="extract" 时的自定义提示词

返回:

  • 分析结果的文本字符串

示例:

# 描述图片
analyze_image(image_path="C:\\path\\to\\image.jpg")

# OCR 提取文字
analyze_image(image_path="C:\\path\\to\\image.jpg", mode="ocr")

# 自定义提取
analyze_image(
    image_path="C:\\path\\to\\image.jpg", 
    mode="extract", 
    prompt="提取图片中的表格数据"
)

Usage Flow

  1. 用户发送图片消息
  2. Agent 检测到图片,调用 analyze_image 工具
  3. 工具调用本地 Ollama qwen3-vl:4b 模型分析
  4. 返回分析结果给用户

Notes

  • 首次使用 qwen3-vl:4b 时会自动下载模型(约 2-3GB)
  • 分析时间取决于图片大小和复杂度(通常 5-30 秒)
  • 需要足够的显存(4B 模型建议 6GB+)

版本历史

共 1 个版本

  • v1.0.0 当前
    2026-03-31 03:45 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

ai-intelligence

ontology

oswalpalash
类型化知识图谱,用于结构化智能体记忆与可组合技能。支持创建/查询实体(人员、项目、任务、事件、文档)及关联...
★ 713 📥 243,958
ai-intelligence

Self-Improving + Proactive Agent

ivangdavila
自我反思+自我批评+自我学习+自组织记忆。智能体评估自身工作、发现错误并持续改进。
★ 1,360 📥 318,618

文档可视化

lzm2023
一键将飞书文档、Word、PDF、Excel、TXT转为深色指挥中心风格HTML看板,支持5主题,可导出PDF和长图。
★ 1 📥 381