← 返回
未分类
multi-image-to-text
批量识别图片中的文字内容并按图片分段输出为结构化文档;当用户需要从多张图片中提取文字、整理图片文字内容、将图片文字转为可编辑文档时使用
批量识别图片文字并按图片分段输出结构化文档,用于从多张图片提取文字、整理文字内容、转为可编辑文档。
未分类
clawhub
v1.0.0 1 版本 99734.7 Key: 无需
#latest
概述
图片文字提取器
任务目标
- 本 Skill 用于:批量处理用户上传的图片,识别并提取每张图片中的文字内容
- 能力包含:图片OCR识别、文字内容整理、分段输出、文档生成
- 触发条件:用户上传一张或多张图片,并要求提取文字、识别内容、转为文档
操作步骤
步骤1:接收图片
- 引导用户上传图片(支持批量上传)
- 接受的图片格式:PNG、JPG、JPEG、GIF、WebP等常见格式
- 确认图片数量和顺序
步骤2:识别文字内容
- 对每张图片调用
read_image 工具进行文字识别 - 识别参数设置:
prompt: "提取图片中的所有文字内容,保持原有的段落和格式"- 按图片上传顺序依次处理
步骤3:整理识别结果
- 为每张图片的文字内容添加清晰的图片标识(如"图片1"、"图片2")
- 保留原文的段落结构和格式
- 如识别到标题、正文、列表等结构,保持原有层次
步骤4:生成文档
- 文档标题
- 提取时间
- 图片总数
- 各图片文字内容(按图片分段)
- 将文档内容直接输出给用户,或生成.md文件供用户下载
资源索引
注意事项
- 图片质量:建议图片清晰、光线充足、文字明显,以提高识别准确率
- 文字语言:支持中英文混合识别,其他语言根据图片内容自动识别
- 处理顺序:严格按照用户上传图片的顺序进行处理和输出
- 格式保留:尽可能保留原文的段落、标题、列表等结构
- 错误处理:如某张图片识别失败,跳过该图片并告知用户,继续处理其他图片
- 隐私保护:图片内容仅在当前会话中使用,不会存储或泄露
使用示例
示例1:批量提取文档图片
用户上传:3张文档截图
执行流程:
- 接收3张图片
- 逐张调用read_image识别文字
- 整理为"图片1"、"图片2"、"图片3"三个部分
- 生成包含所有内容的Markdown文档
示例2:提取演示文稿内容
用户上传:多张PPT截图
执行流程:
- 接收图片并确认数量
- 识别每张PPT中的标题和正文
- 按幻灯片顺序分段输出
- 保持原有的标题层次结构
版本历史
共 1 个版本
-
v1.0.0
当前
2026-05-07 04:56 安全 安全
安全检测
腾讯云安全 (Sanbu)
安全,无风险
查看报告
🔗 相关推荐
office-efficiency
ivangdavila
创建、检查和编辑 Microsoft Excel 工作簿及 XLSX 文件,支持可靠的公式、日期、类型、格式、重算及模板保留功能。
★ 376
📥 143,187
office-efficiency
steipete
使用nano-pdf CLI通过自然语言指令编辑PDF
★ 276
📥 115,574
office-efficiency
steipete
Google Workspace 命令行工具,支持 Gmail、日历、云端硬盘、通讯录、表格和文档。
★ 924
📥 186,359