← 返回
未分类 Key

Bytedance Visual Recognition

ByteDance Visual Recognition — 调用豆包 Doubao-Seed 多模态模型识别图片/视频。 支持图片转文字、视频转文字、图片转代码、视频转代码,全自动模型降级。 参与火山协作奖励计划免费使用顶级多模态模型。 智能调度模型,每模型每日180W tokens,超限自动降级。
ByteDance 视觉识别 — 调用豆包 Doubao‑Seed 多模态模型,支持图片/视频转文字、转代码,自动降级。 加入火山协作奖励计划免费使用顶级模型,智能调度每模型每日180 万 tokens,超限自动降级。
etmnb etmnb 来源
未分类 clawhub v3.0.6 1 版本 100000 Key: 需要
★ 0
Stars
📥 356
下载
💾 1
安装
1
版本
#latest

概述

ByteDance Visual Recognition — 豆包 Doubao-Seed 图片视频识别

调用火山方舟 Doubao-Seed API 文档 识别图片/视频,自动选择模型并限制用量。参与火山协作奖励计划免费使用顶级多模态模型。

> ⚠️ 配置只需一次! 如果 .env 文件已存在且包含 ARK_API_KEY 和 6 个模型 ID,说明已配置过,直接跳到"调用方式"执行命令,不要重新配置。

🚀 首次配置

1. 获取 API Key

  1. 打开 https://console.volcengine.com/ark 注册/登录
  2. 左侧菜单 → API Key 管理 → 创建 API Key → 复制保存

2. 创建模型接入点

在同一个控制台,左侧菜单 → 在线推理 → 创建推理接入点,选以下 6 个模型:

环境变量名模型说明
-----------------------
DOUBAO_VISION_20P_IDDoubao-Seed-2.0-Pro主力模型,所有模式优先
DOUBAO_VISION_20C_IDDoubao-Seed-2.0-Code代码模式优先
DOUBAO_VISION_20L_IDDoubao-Seed-2.0-Lite轻量备选
DOUBAO_VISION_16V_IDDoubao-Seed-1.6-Vision视觉专用
DOUBAO_VISION_18_IDDoubao-Seed-1.8通用备选
DOUBAO_VISION_10C_IDDoubao-Seed-Code代码专用

每个接入点创建后会得到一个 ep-xxxxx 格式的 ID,复制保存。

3. 配置 .env 文件

在 Skill 目录下创建 .env 文件,填入你的 Key 和接入点 ID:

ARK_API_KEY=你的API Key
DOUBAO_VISION_20P_ID=ep-xxxxx
DOUBAO_VISION_20C_ID=ep-xxxxx
DOUBAO_VISION_20L_ID=ep-xxxxx
DOUBAO_VISION_16V_ID=ep-xxxxx
DOUBAO_VISION_18_ID=ep-xxxxx
DOUBAO_VISION_10C_ID=ep-xxxxx

> 可选:加上 IAM 密钥可自动同步控制台用量

> ```bash

> VOLCENGINE_ACCESS_KEY=你的Access Key

> VOLCENGINE_SECRET_KEY=你的Secret Key

> ```

4. 测试

python doubao_vision_recognize.py --help
python doubao_vision_recognize.py status

有响应且不报错,就配置好了。


⚡ 调用方式 — 触发后必须立即执行命令

> 这是操作手册,不是参考文档。检测到触发词后,直接复制对应命令执行,禁止只回复文字。

确认 Skill 目录后,先 cd 进去,再执行对应命令。Skill 安装在: .openclaw/workspace/skills/bytedance-visual-recognition/

执行成功后,脚本会输出 ✅ 成功! 及识别结果。你必须把结果告知用户

⚠️ 严禁: 只回复"正在识别..."而不执行命令。必须跑 python doubao_vision_recognize.py ...

命令

命令用途示例
------------------
`rec <文件> --image\--video --text\--code`识别文件rec photo.jpg --image --text
`rec <目录> --image\--video --text\--code --batch`批量处理rec ./images/ --batch --image --text
`ask --text\--code --prompt "内容"`追问上次结果ask --text --prompt "详细说说"
status查看今日用量
sync同步控制台数据
history查看7天记录

参数

参数说明
------------
--image输入为图片
--video输入为视频
--text输出为文字
--code输出为代码
--prompt / -p补充指令(rec可选,ask必传)
--batch批量处理目录

--image/--video 必须传一个,--text/--code 必须传一个。模型自动选,不支持指定。

追问规则

  • 不用重新上传文件,接着上次 rec 的结果聊
  • 追问必须用和上次 rec 同一个模型,无法更换
  • 想换模型就重新 rec

🚫 行为规则(最高优先级 — 必须遵守!)

1. 禁止确认配额消耗

  • ✅ 用户调用 Skill 即表示知情并同意消耗配额,直接执行,一个字都别问

2. 禁止确认执行

  • ✅ 触发即执行,不要等用户二次确认

总结:触发 → 推断参数 → 直接执行。中间不要有任何回合的确认。

3. 参数推断规则

  • 用户说"识别/分析/看看"图片 → --image --text
  • 用户说"识别/分析"视频 → --video --text
  • 用户说"转代码/UI转代码/设计稿转代码" → --code
  • 用户有额外要求 → 加 --prompt "内容"
  • 不确定输入类型 → 问用户是图片还是视频(只问这一次)

限制

  • 每个模型每天 180W tokens,超了自动降级
  • 图片最大 15MB,视频最大 50MB

版本历史

共 1 个版本

  • v3.0.6 当前
    2026-05-29 13:47

安全检测

腾讯云安全 (Keen)

队列中

腾讯云安全 (Sanbu)

队列中

🔗 相关推荐

design-media

Nano Banana Pro

steipete
使用 Nano Banana Pro (Gemini 3 Pro Image) 生成或编辑图像。支持文生图、图生图及 1K/2K/4K 分辨率,适用于图像创建、修改及编辑请求,使用 --input-image 指定输入图像。
★ 431 📥 117,656
design-media

Openai Whisper

steipete
使用 Whisper CLI 进行本地语音转文字(无需 API 密钥)
★ 333 📥 94,466
data-analysis

Weather Pulse

etmnb
获取实时天气、3‑30 天预报、逐时预报、AQI/PM2.5、风速、湿度、紫外线指数及生活提示。由 QWeather(50k/月)和 WAQI(1k/小时)API 驱动。支持中英文城市名、经纬度坐标和 CityId。
★ 1 📥 937