← 返回
未分类

multi-image-to-text

批量识别图片中的文字内容并按图片分段输出为结构化文档;当用户需要从多张图片中提取文字、整理图片文字内容、将图片文字转为可编辑文档时使用
批量识别图片文字并按图片分段输出结构化文档,用于从多张图片提取文字、整理文字内容、转为可编辑文档。
asiangiantduck asiangiantduck 来源
未分类 clawhub v1.0.0 1 版本 99734.7 Key: 无需
★ 0
Stars
📥 376
下载
💾 0
安装
1
版本
#latest

概述

图片文字提取器

任务目标

  • 本 Skill 用于:批量处理用户上传的图片,识别并提取每张图片中的文字内容
  • 能力包含:图片OCR识别、文字内容整理、分段输出、文档生成
  • 触发条件:用户上传一张或多张图片,并要求提取文字、识别内容、转为文档

操作步骤

步骤1:接收图片

  • 引导用户上传图片(支持批量上传)
  • 接受的图片格式:PNG、JPG、JPEG、GIF、WebP等常见格式
  • 确认图片数量和顺序

步骤2:识别文字内容

  • 对每张图片调用 read_image 工具进行文字识别
  • 识别参数设置:
  • prompt: "提取图片中的所有文字内容,保持原有的段落和格式"
  • 按图片上传顺序依次处理

步骤3:整理识别结果

  • 为每张图片的文字内容添加清晰的图片标识(如"图片1"、"图片2")
  • 保留原文的段落结构和格式
  • 如识别到标题、正文、列表等结构,保持原有层次

步骤4:生成文档

  1. 文档标题
  2. 提取时间
  3. 图片总数
  4. 各图片文字内容(按图片分段)
    • 将文档内容直接输出给用户,或生成.md文件供用户下载

资源索引

注意事项

  • 图片质量:建议图片清晰、光线充足、文字明显,以提高识别准确率
  • 文字语言:支持中英文混合识别,其他语言根据图片内容自动识别
  • 处理顺序:严格按照用户上传图片的顺序进行处理和输出
  • 格式保留:尽可能保留原文的段落、标题、列表等结构
  • 错误处理:如某张图片识别失败,跳过该图片并告知用户,继续处理其他图片
  • 隐私保护:图片内容仅在当前会话中使用,不会存储或泄露

使用示例

示例1:批量提取文档图片

用户上传:3张文档截图

执行流程

  1. 接收3张图片
  2. 逐张调用read_image识别文字
  3. 整理为"图片1"、"图片2"、"图片3"三个部分
  4. 生成包含所有内容的Markdown文档

示例2:提取演示文稿内容

用户上传:多张PPT截图

执行流程

  1. 接收图片并确认数量
  2. 识别每张PPT中的标题和正文
  3. 按幻灯片顺序分段输出
  4. 保持原有的标题层次结构

版本历史

共 1 个版本

  • v1.0.0 当前
    2026-05-07 04:56 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

office-efficiency

Excel / XLSX

ivangdavila
创建、检查和编辑 Microsoft Excel 工作簿及 XLSX 文件,支持可靠的公式、日期、类型、格式、重算及模板保留功能。
★ 376 📥 143,187
office-efficiency

Nano Pdf

steipete
使用nano-pdf CLI通过自然语言指令编辑PDF
★ 276 📥 115,574
office-efficiency

Gog

steipete
Google Workspace 命令行工具,支持 Gmail、日历、云端硬盘、通讯录、表格和文档。
★ 924 📥 186,359