← 返回
未分类 Key

MiniMax PDF OCR

使用 MiniMax Vision API 识别 PDF/图片中的文字
使用 MiniMax Vision API 识别 PDF/图片 文字
chongjie-ran
未分类 clawhub v1.0.0 1 版本 99840.3 Key: 需要
★ 0
Stars
📥 625
下载
💾 1
安装
1
版本
#latest

概述

MiniMax OCR Skill

使用 MiniMax Vision API 识别 PDF/图片中的文字内容,支持中文和英文。

功能

  • PDF 转图片(使用 poppler)
  • MiniMax Vision API 文字识别
  • 输出 Markdown 格式

依赖

# 安装 Node.js 依赖
cd minimax-pdf-ocr
npm install openai pdf2image

# 安装系统依赖
brew install poppler

使用方法

命令行

# 设置 API Key
export MINIMAX_API_KEY="your-api-key"

# 运行 OCR
node pdf-ocr-minimax.js <pdf文件路径> [输出目录]

# 示例
node pdf-ocr-minimax.js ./document.pdf ./output/

作为 Skill 使用

在 JavaScript 代码中调用:

const { recognizePdf } = require('./pdf-ocr-minimax.js');

await recognizePdf('/path/to/document.pdf', './output/');

环境变量

变量说明必填
------------------
MINIMAX_API_KEYMiniMax API Key (从 platform.minimaxi.com 获取)
OUTPUT_DIR输出目录否(默认当前目录)

输出

  • 识别结果保存为 .md 文件
  • 包含所有页面的文字内容
  • 保持原有格式和段落结构

示例输出

# 文档名称

## 第 1 页

这里是第一页的文字内容...

## 第 2 页

这里是第二页的文字内容...

注意事项

  • MiniMax M2.5 模型支持视觉理解
  • 每页识别约消耗 100-500 次 token
  • 建议批量处理时添加适当延迟避免限流
  • API Key 获取: https://platform.minimaxi.com/user-center/basic-information/interface-key

版本历史

共 1 个版本

  • v1.0.0 当前
    2026-05-03 04:29 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

WeCom文件检测

chongjie-ran
企业微信聊天文件获取 - 从 ~/.openclaw/media/inbound/ 目录检测和获取通过聊天传递的文件。 当用户提到获取文件、发送文件、附件等请求时激活。
★ 0 📥 736
productivity

Kimi文件传输

chongjie-ran
将本地最多5个文件发送到当前Kimi对话中供用户下载,支持任意类型文件。
★ 0 📥 895

WeCom文件发送

chongjie-ran
通过企业微信将本地目录中的文件(文档、图片、视频、语音)发送给指定用户,支持文件大小限制管理。
★ 0 📥 1,005