← 返回
未分类 Key 中文

Doc To Text

Extract plain readable text from Word documents (.doc, .docx) using MinerU. Outputs Markdown (the closest plain-text format supported) for easy reading and p...
使用 MinerU 从 Word 文档(.doc、.docx)中提取纯文本并输出为 Markdown(最接近的纯文本格式),便于阅读和后续处理。
mzlzyca mzlzyca 来源
未分类 clawhub v0.4.0 1 版本 100000 Key: 需要
★ 0
Stars
📥 492
下载
💾 0
安装
1
版本
#latest

概述

Doc To Text

Extract plain readable text from Word (.doc/.docx) documents using MinerU. MinerU outputs Markdown, which is the closest format to plain text it supports.

Install

npm install -g mineru-open-api
# or via Go (macOS/Linux):
go install github.com/opendatalab/MinerU-Ecosystem/cli/mineru-open-api@latest

Quick Start

# Extract text from .docx to stdout (no token required)
mineru-open-api flash-extract report.docx

# Save to file
mineru-open-api flash-extract report.docx -o ./out/

# Extract .doc (requires token)
mineru-open-api extract report.doc -o ./out/

# JSON output contains plain text fields (requires token)
mineru-open-api extract report.docx -f json -o ./out/

Authentication

No token needed for flash-extract on .docx. Token required for .doc and extract:

mineru-open-api auth             # Interactive token setup
export MINERU_TOKEN="your-token" # Or via environment variable

Create token at: https://mineru.net/apiManage/token

Capabilities

  • Supported input: .doc, .docx (local file or URL)
  • .docx: supports flash-extract (no token, Markdown output to stdout)
  • .doc: requires extract with token
  • For truly plain text: use extract -f json and read the text fields from the JSON output
  • Language hint with --language (default: ch, use en for English)

Notes

  • MinerU does not have a -f text option; Markdown is the closest to plain text
  • .doc requires extract with token; .docx works with flash-extract
  • Output goes to stdout by default; use -o to save to a file or directory
  • All progress/status messages go to stderr; document content goes to stdout
  • MinerU is open-source by OpenDataLab (Shanghai AI Lab): https://github.com/opendatalab/MinerU

版本历史

共 1 个版本

  • v0.4.0 当前
    2026-05-03 06:00 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

office-efficiency

Excel / XLSX

ivangdavila
创建、检查和编辑 Microsoft Excel 工作簿及 XLSX 文件,支持可靠的公式、日期、类型、格式、重算及模板保留功能。
★ 385 📥 146,829
office-efficiency

Word / DOCX

ivangdavila
创建、检查和编辑 Microsoft Word 文档及 DOCX 文件,支持样式、编号、修订记录、表格、分节符及兼容性检查等功能。
★ 462 📥 154,500
dev-programming

PDF to LaTeX

mzlzyca
使用 MinerU 将 PDF 文档转换为 LaTeX 源码,提取文本、公式和结构,输出 LaTeX 格式,适用于学术和技术文档。
★ 0 📥 624