← 返回
未分类 Key 中文

HTML to Text

Convert HTML to plain readable text using MinerU. Strips HTML markup and extracts clean text content from web pages and HTML files. Features: HTML to text co...
使用 MinerU 将 HTML 转换为纯文本。剥离 HTML 标签,从网页和 HTML 文件中提取干净的文本内容。功能:HTML 转文本...
mzlzyca mzlzyca 来源
未分类 clawhub v0.4.0 1 版本 100000 Key: 需要
★ 0
Stars
📥 447
下载
💾 0
安装
1
版本
#latest

概述

HTML to Text

Extract plain readable text from HTML files or web pages using MinerU. MinerU outputs Markdown as the closest format to plain text.

Install

npm install -g mineru-open-api
# or via Go (macOS/Linux):
go install github.com/opendatalab/MinerU-Ecosystem/cli/mineru-open-api@latest

Quick Start

# Extract text from a local HTML file (requires token)
mineru-open-api extract page.html -o ./out/

# Extract text from a web page (requires token)
mineru-open-api crawl https://example.com/article

# JSON output contains text fields (requires token)
mineru-open-api extract page.html -f json -o ./out/

Authentication

Token required:

mineru-open-api auth             # Interactive token setup
export MINERU_TOKEN="your-token" # Or via environment variable

Create token at: https://mineru.net/apiManage/token

Capabilities

  • Supported input: local .html file or web page URL
  • HTML requires extract or crawl (token required) — not supported by flash-extract
  • MinerU does not have a -f text option; Markdown is the closest plain-text output
  • For truly plain text: use extract -f json and read the text fields from JSON output
  • Language hint with --language (default: ch, use en for English)

Notes

  • MinerU has no -f text format; use Markdown output or -f json for text fields
  • HTML is NOT supported by flash-extract
  • Output goes to stdout by default; use -o to save to a file or directory
  • All progress/status messages go to stderr; document content goes to stdout
  • MinerU is open-source by OpenDataLab (Shanghai AI Lab): https://github.com/opendatalab/MinerU

版本历史

共 1 个版本

  • v0.4.0 当前
    2026-05-03 08:06 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

data-analysis

Data Analysis

ivangdavila
{"answer":"数据分析与可视化。查询数据库、生成报告、自动化电子表格,将原始数据转化为清晰可行的见解。适用于:(1) 您……"}
★ 211 📥 70,337
data-analysis

Tavily 搜索

jacky1n7
通过 Tavily API 进行网页搜索(Brave 替代方案)。当用户要求搜索网页、查找来源或链接,且 Brave 网页搜索不可用时使用。
★ 274 📥 101,077
office-efficiency

Ocr Pro

mzlzyca
使用MinerU实现专业级PDF和图像OCR。先进文本识别,搭载VLM(视觉语言模型),支持复杂排版、混合内容...
★ 0 📥 890