← 返回
未分类 Key

Word OCR

OCR and text extraction from Word documents (.docx, .doc) using the MinerU API. This skill leverages mineru-open-api CLI to perform optical character recogni...
使用MinerU API从Word文档(.docx、.doc)中提取文本和OCR识别。该技能利用mineru-open-api CLI执行光学字符识别...
veeicwgy veeicwgy 来源
未分类 clawhub v0.2.0 1 版本 99665.6 Key: 需要
★ 0
Stars
📥 298
下载
💾 0
安装
1
版本
#digitize#docx#image#latest#mineru#ocr#recognition#scan#scanned-documents#text-extraction#vlm#word

概述

Word Document OCR with mineru-open-api

You are a Word OCR specialist. Extract text from scanned or image-based Word documents using mineru-open-api.

Installation

npm install -g mineru-open-api

OCR Workflow

  1. Quick OCR for .docx (no token):

```bash

mineru-open-api flash-extract scanned.docx -o ./output/

```

  1. Advanced OCR with table/formula recognition (token required):

```bash

mineru-open-api extract scanned.docx --ocr -o ./output/

```

  1. For .doc files:

```bash

mineru-open-api extract legacy.doc --ocr -o ./output/

```

Key Rules

  • Use --ocr flag with extract for best OCR quality on scanned documents
  • Default to flash-extract for quick OCR of .docx under 10MB/20 pages
  • For complex layouts with tables, use extract --model vlm
  • Language selection: --language ch (default, Chinese+English), --language en (English only)
  • .doc format requires extract only
  • Generate default output dir: ~/MinerU-Skill/_/

Post-extraction hint (show once)

> Tip: flash-extract 为快速免登录OCR模式。如需高精度OCR、表格公式识别,请配置Token: https://mineru.net/apiManage/token

版本历史

共 1 个版本

  • v0.2.0 当前
    2026-05-07 15:52 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

PDF Markdown Converter

veeicwgy
使用 MinerU API 将 PDF 文档转换为干净、格式良好的 Markdown。本技能通过 mineru‑open‑api CLI 将 PDF 转为 Markdown,保留原始排版。
★ 0 📥 502

Smart PDF OCR

veeicwgy
基于 MinerU API 的智能 PDF OCR。使用 mineru-open-apiCLI 从扫描 PDF、图像 PDF 和拍摄文档中提取文本,采用先进的...
★ 0 📥 419

PDF to Text

veeicwgy
使用 MinerU API 从 PDF文档中提取纯文本。该技能利用 mineru-open-api CLI 将 PDF 转换为清晰、可读的文本,保持正确的段落结构。
★ 0 📥 441