← 返回
未分类 Key 中文

PDF Analysis

Analyze the structure, layout, and content of PDF documents using MinerU. Returns structured output preserving headings, tables, images, formulas, and docume...
使用 MinerU 分析 PDF 文档结构、布局和内容,输出保留标题、表格、图片、公式及文档的结构化数据。
mzlzyca mzlzyca 来源
未分类 clawhub v0.4.0 1 版本 100000 Key: 需要
★ 0
Stars
📥 504
下载
💾 2
安装
1
版本
#latest

概述

PDF Analysis

Analyze and extract structured content from PDF files using MinerU. Returns Markdown with layout, headings, and structure preserved.

Install

npm install -g mineru-open-api
# or via Go (macOS/Linux):
go install github.com/opendatalab/MinerU-Ecosystem/cli/mineru-open-api@latest

Quick Start

# Quick analysis, no token required (max 10 MB / 20 pages)
mineru-open-api flash-extract report.pdf

# Save to directory
mineru-open-api flash-extract report.pdf -o ./out/

# From URL
mineru-open-api flash-extract https://example.com/report.pdf

# With language hint
mineru-open-api flash-extract report.pdf --language en

# Full analysis with tables and formulas (requires token)
mineru-open-api extract report.pdf -o ./out/

Authentication

No token needed for flash-extract. Token required for extract:

mineru-open-api auth             # Interactive token setup
export MINERU_TOKEN="your-token" # Or via environment variable

Create token at: https://mineru.net/apiManage/token

Capabilities

  • Supported input: .pdf (local file or URL)
  • flash-extract: quick, no token, max 10 MB / 20 pages, Markdown output only
  • extract: token required, full features (tables, formulas, OCR, multi-format output)
  • Language hint with --language (default: ch, use en for English)
  • Page range with --pages (e.g. 1-10)

Notes

  • Use flash-extract for quick reads; use extract for tables, formulas, or files over 10 MB
  • Output goes to stdout by default; use -o to save to a file or directory
  • All progress/status messages go to stderr; document content goes to stdout
  • MinerU is open-source by OpenDataLab (Shanghai AI Lab): https://github.com/opendatalab/MinerU

版本历史

共 1 个版本

  • v0.4.0 当前
    2026-05-03 05:37 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

Doc Parse

mzlzyca
使用MinerU从Word文档(.doc、.docx)中解析提取结构化内容,转换为格式规范的Markdown。保留完整文档层级结构(标题、段落等)
★ 0 📥 837

Extract Tables From Pdf

mzlzyca
使用MinerU表格检测引擎从PDF文档中提取表格。能够从原生PDF和扫描PDF中识别并提取结构化表格数据。
★ 0 📥 673

PDF to DOCX

mzlzyca
使用 MinerU 将 PDF 文档转换为 Word(.docx)格式,保持布局、文本、表格和格式,实现可编辑的 Word 文档。
★ 0 📥 691