← 返回
内容创作

multimodal-parser

Unified multi-modal content parser for images, PDF, DOCX, audio, auto OCR/transcription, output structured text for LLM processing
统一多模态内容解析器,支持图像、PDF、DOCX和音频,自动进行OCR及转录,输出面向LLM处理的结构化文本。
ayalili
内容创作 clawhub v1.0.1 1 版本 99899.2 Key: 无需
★ 0
Stars
📥 991
下载
💾 62
安装
1
版本
#latest

概述

📄 多模态内容解析器

核心亮点

  1. 🔄 统一接口:一套API支持图片/PDF/Word/音频4大类格式解析,不需要对接多个服务
  2. 🚀 开箱即用:内置OCR、音频转文字、文档解析能力,零配置即可使用
  3. 📝 多格式输出:支持纯文本/Markdown/结构化JSON三种输出格式,适配不同LLM处理需求
  4. 💡 友好错误提示:依赖缺失时自动给出安装命令,新手也能快速上手

🎯 适用场景

  • 多模态Agent的内容解析层
  • 文档问答、知识库构建场景的文件预处理
  • 图片OCR识别、语音转文字需求
  • 批量文档解析与结构化处理

📝 参数说明

参数类型必填默认值说明
--------------------------------
file_pathstring-要解析的文件路径
file_typestringauto文件类型:image/pdf/docx/audio/auto
output_formatstringtext输出格式:text/markdown/structured
options.ocr_langstringchi_sim+engOCR识别语言
options.audio_modelstringbaseWhisper模型大小(base/small/medium/large)
options.pdf_page_rangetupleundefinedPDF解析页码范围,如[1, 10]表示解析第1-10页

💡 开箱即用示例

图片OCR识别

const result = await skills.multimodalParser({
  file_path: "./resume.jpg",
  file_type: "image",
  output_format: "markdown"
});

PDF解析(指定页码范围)

const result = await skills.multimodalParser({
  file_path: "./document.pdf",
  output_format: "structured",
  options: {
    pdf_page_range: [1, 50] // 只解析前50页
  }
});

音频转文字

const result = await skills.multimodalParser({
  file_path: "./meeting.mp3",
  options: { 
    audio_model: "small" // 用small模型,速度更快
  }
});

🔧 依赖安装

根据需要解析的文件类型安装对应依赖:

# 全量安装所有依赖(推荐)
## macOS
brew install tesseract tesseract-lang poppler pandoc
pip install openai-whisper ffmpeg

## Ubuntu/Debian
apt install tesseract-ocr tesseract-ocr-chi-sim poppler-utils pandoc ffmpeg
pip install openai-whisper

技术实现说明

  • 基于成熟的开源工具链(Tesseract/Poppler/Whisper/Pandoc)
  • 自动文件类型检测,无需手动指定格式
  • 模块化设计,可轻松扩展支持更多格式
  • 输出格式标准化,直接可被LLM处理

版本历史

共 1 个版本

  • v1.0.1 当前
    2026-03-29 11:32 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

ai-intelligence

smart-memory-manager

ayalili
具有短期/长期记忆分层、语义搜索、自动摘要和RAG增强的智能代理记忆管理
★ 1 📥 2,232
content-creation

Humanizer

biostartechnology
消除AI写作痕迹,使文本更自然真实。基于维基百科"AI写作特征"指南,识别并修正夸张象征、宣传用语、肤浅-ing分析、模糊归因、破折号滥用、三项排比、AI词汇、负面平行结构及冗长连接词等模式。
★ 861 📥 200,130
content-creation

Baidu Wenku AIPPT

ide-rea
使用百度文库 AI 智能生成 PPT,自动根据内容选择模板。
★ 66 📥 46,237