← 返回
未分类 Key 中文

Paper Parser

Parse academic papers and research documents from PDF using MinerU. Extracts structured content including title, abstract, sections, figures, tables, formula...
使用 MinerU解析 PDF 学术论文与科研文档,提取标题、摘要、各章节、图片、表格、公式等结构化内容。
mzlzyca mzlzyca 来源
未分类 clawhub v0.4.0 1 版本 99808.8 Key: 需要
★ 2
Stars
📥 482
下载
💾 0
安装
1
版本
#latest

概述

Paper Parser

Convert and extract content from .pdf using MinerU (mineru-open-api).

Install

npm install -g mineru-open-api
# or via Go (macOS/Linux):
go install github.com/opendatalab/MinerU-Ecosystem/cli/mineru-open-api@latest

Quick Start

# Parse academic paper (requires token)
mineru-open-api extract paper.pdf -o ./out/

# Use VLM for complex layouts
mineru-open-api extract paper.pdf --model vlm -o ./out/

# Extract from arXiv URL
mineru-open-api extract https://arxiv.org/pdf/2309.10918 -o ./out/

Authentication

Token required for extract and crawl:

mineru-open-api auth            # Interactive token setup
export MINERU_TOKEN="your-token" # Or via environment variable

Create token at: https://mineru.net/apiManage/token

Capabilities

  • Supports local files and URLs
  • Requires token (mineru-open-api auth or MINERU_TOKEN env)
  • Supported input: .pdf
  • Language hint with --language (default: ch, use en for English)
  • Page range with --pages (where applicable)

Notes

  • Academic papers benefit from --model vlm for better layout accuracy. Requires extract with token.
  • Output goes to stdout by default; use -o to save to file
  • Binary formats (docx) require -o flag (cannot stream to stdout)
  • All progress/status messages go to stderr
  • MinerU is an open-source project by OpenDataLab (Shanghai AI Lab): https://github.com/opendatalab/MinerU

版本历史

共 1 个版本

  • v0.4.0 当前
    2026-05-03 06:18 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

professional

All-Market Financial Data Hub

financial-ai-analyst
基于东方财富数据库,支持自然语言查询金融数据,覆盖A股、港股、美股、基金、债券等资产,提供实时行情、公司信息、估值、财务报表等,适用于投资研究、交易复盘、市场监控、行业分析、信用研究、财报审计、资产配置等场景,满足机构与个人需求。返回结果为
★ 123 📥 41,523
professional

Stock Analysis

udiedrichsen
{"answer":"基于雅虎财经数据,分析股票与加密货币。支持投资组合管理、自选股预警、股息分析、8维评分、热门趋势扫描及传闻/早期信号探测。适用于股票分析、持仓追踪、财报异动、加密监控、热门股追踪或提前发掘非主流传闻。"}
★ 277 📥 57,526
office-efficiency

Doc Parse

mzlzyca
使用MinerU从Word文档(.doc、.docx)中解析提取结构化内容,转换为格式规范的Markdown。保留完整文档层级结构(标题、段落等)
★ 0 📥 862