讯飞大模型OCR图像理解

使用讯飞 OpenAI 兼容接口对本地图片做 OCR、版面文字提取、截图转文本或表格提取。适用于用户提到图片识别、OCR、截图转文字，并可能需要通过命令行提供 API Key、Model ID、提示词或配置文件路径的场景。

user_bd0773b4

未分类 community v1.0.0 1 版本 100000 Key: 需要

★ 0

Stars

📥 5

下载

💾 0

安装

版本

#latest

概述

iFlytek Bigmodel OCR

When To Use

在用户想识别本地图片中的文字、表格或截图内容时使用这个 skill。优先通过命令行参数收集配置，不要要求用户手改 skill 包里的文件。

Workflow

先确认输入图片路径存在，并明确是否需要自定义提示词。
优先用命令行参数传入 --api-key、--model-id、--base-url 等必要配置。
如果用户希望复用配置，再让 Claude 使用工作区里的自定义配置文件，并通过 --config 传给脚本。
执行脚本后，直接返回 JSON 结果，必要时再帮用户解释 content 字段。

Quick Start

安装依赖：

pip install openai

最小调用：

python3 "${CLAUDE_SKILL_DIR}/scripts/bigmodel_ocr_recognizer.py" "image.png" \
  --api-key "$IFLYTEK_API_KEY" \
  --model-id "your-model-id" \
  --base-url "https://maas-api.cn-huabei-1.xf-yun.com/v2"

带自定义提示词：

python3 "${CLAUDE_SKILL_DIR}/scripts/bigmodel_ocr_recognizer.py" "image.png" \
  --api-key "$IFLYTEK_API_KEY" \
  --model-id "your-model-id" \
  --base-url "https://maas-api.cn-huabei-1.xf-yun.com/v2" \
  --prompt "提取表格并输出为 Markdown"

Config Rules

命令行参数优先级最高。
其次读取环境变量，默认是 IFLYTEK_API_KEY。
再其次读取 --config 指定的 JSON 文件。
skill 自带的 assets/config.template.json 只是模板，不能直接当真实凭证使用。

Supporting Files

详细参数说明见 references/configuration.md
常见调用示例见 references/examples.md
默认配置模板见 assets/config.template.json

版本历史

共 1 个版本

v1.0.0 Initial release 当前

2026-06-11 10:17 安全安全

安全检测

腾讯云安全 (Keen)

安全，无风险

查看报告

腾讯云安全 (Sanbu)

安全，无风险

查看报告

🔗 相关推荐

ai-agent

Skill Vetter

spclaudehome

AI智能体技能安全预审工具。安装ClawdHub、GitHub等来源技能前，检查风险信号、权限范围及可疑模式。

★ 1,232 📥 268,323

ai-agent

Self-Improving + Proactive Agent

ivangdavila

自我反思+自我批评+自我学习+自组织记忆。智能体评估自身工作、发现错误并持续改进。

★ 1,385 📥 321,022

ai-agent

self-improving agent

pskoett

捕获经验教训、错误及修正内容，以实现持续改进。适用于以下场景：（1）命令或操作意外失败；（2）用户纠正Claude（如“不，那不对……”“实际上……”）；（3）用户请求的功能不存在；（4）外部API或工具出现故障；（5）Claude发现自身

★ 4,086 📥 814,897