← 返回
效率工具

Article Extract

提取微信公众号、博客、新闻等网页的正文内容,绕过反爬机制,纯文本输出。
提取微信公众号、博客、新闻等网页的正文内容,绕过反爬机制,纯文本输出。
caozeal
效率工具 clawhub v1.0.0 1 版本 99888.5 Key: 无需
★ 0
Stars
📥 896
下载
💾 246
安装
1
版本
#latest

概述

Article Extract

网页文章内容提取工具。支持微信公众号、博客、新闻网站等,输出干净的纯文本内容。

特点

  • ✅ 绕过微信公众号反爬机制
  • ✅ 自动过滤脚本、样式、导航等无关内容
  • ✅ 纯 Python 实现,无需额外依赖
  • ✅ 支持任意网页 URL

安装

无需安装,直接使用 Python 3 运行。

使用

python3 skills/article-extract/scripts/extract.py <url>

示例

# 提取微信公众号文章
python3 skills/article-extract/scripts/extract.py "https://mp.weixin.qq.com/s/xxxxx"

# 提取博客文章
python3 skills/article-extract/scripts/extract.py "https://example.com/blog/post"

# 保存到文件
python3 skills/article-extract/scripts/extract.py "https://mp.weixin.qq.com/s/xxxxx" > article.txt

输出

工具会输出提取的纯文本内容到 stdout,可以通过重定向保存到文件:

python3 skills/article-extract/scripts/extract.py "https://..." > output.txt

原理

  1. 使用标准浏览器 User-Agent 发送 HTTP 请求
  2. 解析 HTML,过滤