Scrapling Web Fetch

使用 Scrapling + html2text 获取现代网页正文内容，支持微信公众号文章抓取与尾部噪音清洗，减少无用信息与 token 消耗；适合抓取博客、新闻、公告及许多普通 fetch 不稳定、存在反爬或动态渲染干扰的网页。Supports WeChat article cleanup, markdown...

jllyzzd2023

沟通协作 clawhub v1.0.2 1 版本 99936.9 Key: 无需

★ 1

Stars

📥 1,563

下载

💾 10

安装

版本

#latest

概述

Scrapling Web Fetch

当用户要获取网页内容、正文提取、把网页转成 markdown/text、抓取文章主体时，优先使用此技能。

默认流程

使用 python3 scripts/scrapling_fetch.py
默认正文选择器优先级：

article
main
.post-content
[class*="body"]

命中正文后，使用 html2text 转 Markdown
若都未命中，回退到 body
最终按 max_chars 截断输出

用法

python3 /Users/zzd/.openclaw/workspace/skills/scrapling-web-fetch/scripts/scrapling_fetch.py <url> 30000

依赖

优先检查：

scrapling
html2text

若缺失，可安装：

python3 -m pip install scrapling html2text

输出约定

脚本默认输出 Markdown 正文内容。

如需结构化输出，可追加 --json。

如需调试提取命中了哪个 selector，可查看 stderr 输出。

附加资源

用法参考：/Users/zzd/.openclaw/workspace/skills/scrapling-web-fetch/references/usage.md
选择器策略：/Users/zzd/.openclaw/workspace/skills/scrapling-web-fetch/references/selectors.md
统一入口：/Users/zzd/.openclaw/workspace/skills/scrapling-web-fetch/scripts/fetch-web-content

何时用这个技能

获取文章正文
抓博客/新闻/公告正文
将网页转成 Markdown 供后续总结
常规 fetch 效果差，希望提升现代网页抓取稳定性

何时不用

需要完整浏览器交互、点击、登录、翻页时：改用浏览器自动化
只是简单获取 API JSON：直接请求 API 更合适

版本历史

共 1 个版本

v1.0.2 当前

2026-03-30 09:03 安全安全

安全检测

腾讯云安全 (Keen)

安全，无风险

查看报告

腾讯云安全 (Sanbu)

安全，无风险

查看报告

🔗 相关推荐

communication-collaboration

Slack

steipete

当需要通过 slack 工具从 Clawdbot 控制 Slack 时使用，包括在频道或私信中回复消息或置顶/取消置顶项目。

★ 157 📥 47,748

communication-collaboration

Himalaya

lamelas

{"answer":"通过IMAP/SMTP管理邮件的CLI。可在终端使用 `himalaya` 收发、回复、转发、搜索及整理邮件。支持多账户与MML（MIME元语言）编写邮件。"}

★ 68 📥 45,629

communication-collaboration

Gmail

byungkyu

Gmail API 集成，托管 OAuth，支持读取、发送和管理邮件、线程、标签及草稿，适用于需要与 Gmail 交互的场景。

★ 72 📥 37,750