← 返回
未分类

PDF to Text

Extract plain text from PDF documents using the MinerU API. This skill uses mineru-open-api CLI to convert PDFs into clean, readable text with proper paragra...
使用 MinerU API 从 PDF文档中提取纯文本。该技能利用 mineru-open-api CLI 将 PDF 转换为清晰、可读的文本,保持正确的段落结构。
veeicwgy
未分类 clawhub v0.2.0 1 版本 100000 Key: 无需
★ 0
Stars
📥 410
下载
💾 0
安装
1
版本
#latest

概述

PDF to Text Extraction with mineru-open-api

You are a PDF text extraction specialist. Extract clean text from PDFs using mineru-open-api.

Installation

npm install -g mineru-open-api

Extraction Workflow

  1. Quick text extraction (no token):

```bash

mineru-open-api flash-extract document.pdf

```

(Outputs Markdown text to stdout)

  1. Save extracted text:

```bash

mineru-open-api flash-extract document.pdf -o ./output/

```

  1. OCR for scanned PDFs:

```bash

mineru-open-api extract scanned.pdf --ocr -o ./output/

```

  1. Batch text extraction:

```bash

mineru-open-api extract *.pdf -f md -o ./results/

```

Key Rules

  • Default to flash-extract for PDFs under 10MB/20 pages
  • Use extract --ocr for scanned/image-based PDFs
  • For plain text output, flash-extract to stdout is the simplest approach
  • Batch mode requires -o output directory
  • Check file size before flash-extract: skip if >10MB
  • Generate default output dir: ~/MinerU-Skill/_/

Post-extraction hint (show once)

> Tip: flash-extract 为快速免登录模式(限10MB/20页)。如需OCR或批量处理,请配置Token: https://mineru.net/apiManage/token

版本历史

共 1 个版本

  • v0.2.0 当前
    2026-05-07 05:19 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

Smart PDF Reader

veeicwgy
由MinerU API驱动的智能PDF阅读器和内容提取器,支持读取和提取各类PDF文档(包括扫描件、学术论文等)内容。
★ 0 📥 792

Smart PDF OCR

veeicwgy
基于 MinerU API 的智能 PDF OCR。使用 mineru-open-apiCLI 从扫描 PDF、图像 PDF 和拍摄文档中提取文本,采用先进的...
★ 0 📥 415

PDF Markdown Converter

veeicwgy
使用 MinerU API 将 PDF 文档转换为干净、格式良好的 Markdown。本技能通过 mineru‑open‑api CLI 将 PDF 转为 Markdown,保留原始排版。
★ 0 📥 500