← 返回
未分类 Key

讯飞大模型OCR图像理解

使用讯飞 OpenAI 兼容接口对本地图片做 OCR、版面文字提取、截图转文本或表格提取。适用于用户提到图片识别、OCR、截图转文字,并可能需要通过命令行提供 API Key、Model ID、提示词或配置文件路径的场景。
使用讯飞 OpenAI 兼容接口对本地图片做 OCR、版面文字提取、截图转文本或表格提取。适用于用户提到图片识别、OCR、截图转文字,并可能需要通过命令行提供 API Key、Model ID、提示词或配置文件路径的场景。
user_bd0773b4
未分类 community v1.0.0 1 版本 100000 Key: 需要
★ 0
Stars
📥 5
下载
💾 0
安装
1
版本
#latest

概述

iFlytek Bigmodel OCR

When To Use

在用户想识别本地图片中的文字、表格或截图内容时使用这个 skill。优先通过命令行参数收集配置,不要要求用户手改 skill 包里的文件。

Workflow

  1. 先确认输入图片路径存在,并明确是否需要自定义提示词。
  2. 优先用命令行参数传入 --api-key--model-id--base-url 等必要配置。
  3. 如果用户希望复用配置,再让 Claude 使用工作区里的自定义配置文件,并通过 --config 传给脚本。
  4. 执行脚本后,直接返回 JSON 结果,必要时再帮用户解释 content 字段。

Quick Start

安装依赖:

pip install openai

最小调用:

python3 "${CLAUDE_SKILL_DIR}/scripts/bigmodel_ocr_recognizer.py" "image.png" \
  --api-key "$IFLYTEK_API_KEY" \
  --model-id "your-model-id" \
  --base-url "https://maas-api.cn-huabei-1.xf-yun.com/v2"

带自定义提示词:

python3 "${CLAUDE_SKILL_DIR}/scripts/bigmodel_ocr_recognizer.py" "image.png" \
  --api-key "$IFLYTEK_API_KEY" \
  --model-id "your-model-id" \
  --base-url "https://maas-api.cn-huabei-1.xf-yun.com/v2" \
  --prompt "提取表格并输出为 Markdown"

Config Rules

  • 命令行参数优先级最高。
  • 其次读取环境变量,默认是 IFLYTEK_API_KEY
  • 再其次读取 --config 指定的 JSON 文件。
  • skill 自带的 assets/config.template.json 只是模板,不能直接当真实凭证使用。

Supporting Files

  • 详细参数说明见 references/configuration.md
  • 常见调用示例见 references/examples.md
  • 默认配置模板见 assets/config.template.json

版本历史

共 1 个版本

  • v1.0.0 Initial release 当前
    2026-06-11 10:17 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

ai-agent

Skill Vetter

spclaudehome
AI智能体技能安全预审工具。安装ClawdHub、GitHub等来源技能前,检查风险信号、权限范围及可疑模式。
★ 1,232 📥 268,323
ai-agent

Self-Improving + Proactive Agent

ivangdavila
自我反思+自我批评+自我学习+自组织记忆。智能体评估自身工作、发现错误并持续改进。
★ 1,385 📥 321,022
ai-agent

self-improving agent

pskoett
捕获经验教训、错误及修正内容,以实现持续改进。适用于以下场景:(1)命令或操作意外失败;(2)用户纠正Claude(如“不,那不对……”“实际上……”);(3)用户请求的功能不存在;(4)外部API或工具出现故障;(5)Claude发现自身
★ 4,086 📥 814,897