Skill工具集

全部技能分类浏览

← 返回

未分类

multi-image-to-text

批量识别图片中的文字内容并按图片分段输出为结构化文档；当用户需要从多张图片中提取文字、整理图片文字内容、将图片文字转为可编辑文档时使用

批量识别图片文字并按图片分段输出结构化文档，用于从多张图片提取文字、整理文字内容、转为可编辑文档。

asiangiantduck asiangiantduck 来源

未分类 clawhub v1.0.0 1 版本 99734.7 Key: 无需

★ 0

Stars

📥 376

下载

💾 0

安装

1

版本

#latest

概述

图片文字提取器

任务目标

本 Skill 用于：批量处理用户上传的图片，识别并提取每张图片中的文字内容
能力包含：图片OCR识别、文字内容整理、分段输出、文档生成
触发条件：用户上传一张或多张图片，并要求提取文字、识别内容、转为文档

操作步骤

步骤1：接收图片

引导用户上传图片（支持批量上传）
接受的图片格式：PNG、JPG、JPEG、GIF、WebP等常见格式
确认图片数量和顺序

步骤2：识别文字内容

对每张图片调用 read_image 工具进行文字识别
识别参数设置：
prompt: "提取图片中的所有文字内容，保持原有的段落和格式"
按图片上传顺序依次处理

步骤3：整理识别结果

为每张图片的文字内容添加清晰的图片标识（如"图片1"、"图片2"）
保留原文的段落结构和格式
如识别到标题、正文、列表等结构，保持原有层次

步骤4：生成文档

将整理好的内容按标准格式生成Markdown文档
文档格式参考：references/output-format.md
输出文档结构：

文档标题
提取时间
图片总数
各图片文字内容（按图片分段）

将文档内容直接输出给用户，或生成.md文件供用户下载

资源索引

输出格式参考：见 references/output-format.md（包含文档模板和格式规范）

注意事项

图片质量：建议图片清晰、光线充足、文字明显，以提高识别准确率
文字语言：支持中英文混合识别，其他语言根据图片内容自动识别
处理顺序：严格按照用户上传图片的顺序进行处理和输出
格式保留：尽可能保留原文的段落、标题、列表等结构
错误处理：如某张图片识别失败，跳过该图片并告知用户，继续处理其他图片
隐私保护：图片内容仅在当前会话中使用，不会存储或泄露

使用示例

示例1：批量提取文档图片

用户上传：3张文档截图

执行流程：

接收3张图片
逐张调用read_image识别文字
整理为"图片1"、"图片2"、"图片3"三个部分
生成包含所有内容的Markdown文档

示例2：提取演示文稿内容

用户上传：多张PPT截图

执行流程：

接收图片并确认数量
识别每张PPT中的标题和正文
按幻灯片顺序分段输出
保持原有的标题层次结构

版本历史

共 1 个版本

v1.0.0 当前

2026-05-07 04:56 安全安全

安全检测

腾讯云安全 (Keen)

安全，无风险

查看报告

腾讯云安全 (Sanbu)

安全，无风险

查看报告

🔗 相关推荐

office-efficiency

Excel / XLSX

ivangdavila

创建、检查和编辑 Microsoft Excel 工作簿及 XLSX 文件，支持可靠的公式、日期、类型、格式、重算及模板保留功能。

★ 376 📥 143,187

office-efficiency

Nano Pdf

steipete

使用nano-pdf CLI通过自然语言指令编辑PDF

★ 276 📥 115,574

office-efficiency

Gog

steipete

Google Workspace 命令行工具，支持 Gmail、日历、云端硬盘、通讯录、表格和文档。

★ 924 📥 186,359