Claw Vision

Analyze local images including screenshots, receipts, and documents to extract structured text, UI elements, and provide content summaries with confidence le...

分析本地图片（包括截图、收据和文档），提取结构化文本、UI 元素，提供内容摘要及置信度

未分类 clawhub v1.0.0 1 版本 99918.6 Key: 需要

★ 1

Stars

📥 1,207

下载

💾 1

安装

版本

#latest

概述

能力定位

本地图片路径 → 结构化文本理解。通过 vision-tool.py 调用 Gemini 3.1 Pro Preview（NUWA Flux）。

触发场景

用户发送截图、照片、图片文件
关键词：截图、图片里有什么、识别、screenshot、describe image

调用方式

python3 ~/Documents/OpenClaw/workspace/scripts/vision-tool.py <图片绝对路径> "<提示语>"

参数

参数	必填	默认值
------	------	--------
图片路径	✅	—
提示语	✅	"图片里有什么？"

支持格式

PNG / JPG / JPEG / GIF / WEBP（仅本地文件，不支持URL）

输出规范

[summary]     图片内容概述
[fields]      关键字段提取（含文字/表格时）
[ui_elements] 界面元素列表（UI截图时）
[confidence]   置信度: 高/中/低

依赖

vision-tool.py: ~/Documents/OpenClaw/workspace/scripts/vision-tool.py
API: NUWA Flux gemini-3.1-pro-preview

版本历史

共 1 个版本

v1.0.0 当前

2026-05-03 03:22 安全安全

安全检测

腾讯云安全 (Keen)

安全，无风险

查看报告

腾讯云安全 (Sanbu)

安全，无风险

查看报告

🔗 相关推荐

design-media

Openai Whisper

steipete

使用 Whisper CLI 进行本地语音转文字（无需 API 密钥）

★ 330 📥 93,548

design-media

Nano Banana Pro

steipete

使用 Nano Banana Pro (Gemini 3 Pro Image) 生成或编辑图像。支持文生图、图生图及 1K/2K/4K 分辨率，适用于图像创建、修改及编辑请求，使用 --input-image 指定输入图像。

★ 429 📥 116,676

design-media

UI/UX Pro Max

xobi667

提供 UI/UX 设计智能与实现指导，帮助打造精美界面。适用于 UI 设计、UX 流程、信息架构、视觉风格、设计系统/标记、组件规格、文案/微文案、无障碍及前端 UI（HTML/CSS/JS、React、Next.js、Vue、Svelte

★ 216 📥 47,187