← 返回
数据分析 中文

tra-extract-text

Extract readable text, markdown, HTML, JSON, or XML content from web pages using the trafilatura CLI tool with optional metadata and output formatting.
使用trafilatura CLI从网页提取可读文本、Markdown、HTML、JSON或XML内容,支持元数据和输出格式设置。
goog
数据分析 clawhub v1.0.0 1 版本 100000 Key: 无需
★ 0
Stars
📥 456
下载
💾 6
安装
1
版本
#latest

概述

tra-extract-text

Extract text from web pages using the trafilatura command-line tool.

Installation

pip install trafilatura

Usage

Basic text extraction (Markdown)

trafilatura -u URL --markdown

Extract raw text (no formatting)

trafilatura -u URL --text

Output to file

trafilatura -u URL --markdown > output.md
trafilatura -u URL --text > output.txt

CLI Options

OptionDescription
---------------------
-u, --urlTarget URL (required)
--markdownOutput as Markdown (default)
--textOutput as plain text
--htmlOutput as HTML
--jsonOutput as JSON
--xmlOutput as XML
-o, --outputWrite to file instead of stdout
--with-metadataInclude metadata (title, author, date)
--licenseShow license info

Examples

Extract a Medium article to markdown:

trafilatura -u "https://medium.com/example/article" --markdown

Extract and save:

trafilatura -u "https://news.example.com/article" --markdown -o article.md

Extract with metadata:

trafilatura -u "https://example.com/post" --markdown --with-metadata

版本历史

共 1 个版本

  • v1.0.0 当前
    2026-03-30 07:53 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

data-analysis

Data Analysis

ivangdavila
{"answer":"数据分析与可视化。查询数据库、生成报告、自动化电子表格,将原始数据转化为清晰可行的见解。适用于:(1) 您……"}
★ 198 📥 65,104
data-analysis

A股量化 AkShare

mbpz
A股量化数据分析工具,基于AkShare库获取A股行情、财务数据、板块信息等。用于回答关于A股股票查询、行情数据、财务分析、选股等问题。
★ 165 📥 59,994
data-analysis

Excel / XLSX

ivangdavila
创建、检查和编辑 Microsoft Excel 工作簿及 XLSX 文件,支持可靠的公式、日期、类型、格式、重算及模板保留功能。
★ 368 📥 140,435