← 返回
未分类 Key

Claw Vision

Analyze local images including screenshots, receipts, and documents to extract structured text, UI elements, and provide content summaries with confidence le...
分析本地图片(包括截图、收据和文档),提取结构化文本、UI 元素,提供内容摘要及置信度
puma1981 puma1981 来源
未分类 clawhub v1.0.0 1 版本 99918.6 Key: 需要
★ 1
Stars
📥 1,207
下载
💾 1
安装
1
版本
#latest

概述

能力定位

本地图片路径 → 结构化文本理解。通过 vision-tool.py 调用 Gemini 3.1 Pro Preview(NUWA Flux)。

触发场景

  • 用户发送截图、照片、图片文件
  • 关键词:截图、图片里有什么、识别、screenshot、describe image

调用方式

python3 ~/Documents/OpenClaw/workspace/scripts/vision-tool.py <图片绝对路径> "<提示语>"

参数

参数必填默认值
--------------------
图片路径
提示语"图片里有什么?"

支持格式

PNG / JPG / JPEG / GIF / WEBP(仅本地文件,不支持URL)

输出规范

[summary]     图片内容概述
[fields]      关键字段提取(含文字/表格时)
[ui_elements] 界面元素列表(UI截图时)
[confidence]   置信度: 高/中/低

依赖

  • vision-tool.py: ~/Documents/OpenClaw/workspace/scripts/vision-tool.py
  • API: NUWA Flux gemini-3.1-pro-preview

版本历史

共 1 个版本

  • v1.0.0 当前
    2026-05-03 03:22 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

design-media

Openai Whisper

steipete
使用 Whisper CLI 进行本地语音转文字(无需 API 密钥)
★ 330 📥 93,548
design-media

Nano Banana Pro

steipete
使用 Nano Banana Pro (Gemini 3 Pro Image) 生成或编辑图像。支持文生图、图生图及 1K/2K/4K 分辨率,适用于图像创建、修改及编辑请求,使用 --input-image 指定输入图像。
★ 429 📥 116,676
design-media

UI/UX Pro Max

xobi667
提供 UI/UX 设计智能与实现指导,帮助打造精美界面。适用于 UI 设计、UX 流程、信息架构、视觉风格、设计系统/标记、组件规格、文案/微文案、无障碍及前端 UI(HTML/CSS/JS、React、Next.js、Vue、Svelte
★ 216 📥 47,187