← 返回
未分类

Content Catcher

虾抓抓(xia-zhua-zhua) v4.0 - 超强内容抓取技能 支持:Markdown/PDF/多模态提取/结构化抽取/翻译/视频下载 触发词:抓取网页、网页转Markdown、内容抓取、虾抓抓、视频下载
虾抓抓 v4.0 - 超强内容抓取,支持 Markdown、PDF、多模态提取、结构化抽取、翻译、视频下载。触发词:抓取网页、网页转Markdown、内容抓取、虾抓抓、视频下载
luis1213899
未分类 clawhub v4.0.1 1 版本 99784.5 Key: 无需
★ 0
Stars
📥 463
下载
💾 1
安装
1
版本
#latest

概述

虾抓抓 v4.0 - 超强内容抓取技能

> 原名:xia-zhua-zhua,又称Content Catcher


升级亮点 (v4.0)

新功能说明
--------------
PDF导出直接导出为PDF
多模态提取图片/音频/视频资源
结构化抽取表格/列表/卡片智能识别
增量监测页面更新自动提醒
翻译集成抓取后自动翻译
深度渲染完整JS动态内容

核心能力

1. 网页内容抓取

模式命令说明
------------------
标准模式node markdown-clip.js CSS选择器
Smart模式node markdown-clip.js --smartReadability AI
分析模式node markdown-clip.js --analyze摘要+关键词

2. 视频下载

命令说明
------------
python video_catcher_pro.py ytdlp yt-dlp下载
python video_catcher_pro.py m3u8 M3U8下载

v4.0 新增功能

多模态提取

# 提取图片资源
node content-extractor.js <url> --images

# 提取所有媒体
node content-extractor.js <url> --media

PDF导出

# 导出为PDF
node content-extractor.js <url> --pdf

# Markdown + PDF双导出
node content-extractor.js <url> --both

结构化抽取

# 智能识别表格
node content-extractor.js <url> --tables

# 识别列表数据
node content-extractor.js <url> --lists

增量监测

# 监测页面更新
node content-watcher.js <url> --watch

# 设置更新提醒
node content-watcher.js <url> --watch --notify

翻译功能

# 翻译为英文
node content-extractor.js <url> --translate en

# 翻译为日文
node content-extractor.js <url> --translate jp

技术架构

┌─────────────────────────────────────────────────────────┐
│              Content Catcher v4.0                      │
├─────────────────────────────────────────────────────────┤
│                                                         │
│  ┌─────────────┐  ┌─────────────┐  ┌─────────────┐    │
│  │  Playwright  │  │   Turndown   │  │   yt-dlp    │    │
│  │  (渲染)      │  │ (Markdown)  │  │  (视频)     │    │
│  └──────┬──────┘  └──────┬──────┘  └─────────────┘    │
│         │                 │                            │
│  ┌──────▼──────┐  ┌──────▼──────┐                     │
│  │ 多模态提取   │  │  结构化    │                     │
│  │ 图片/音频   │  │  表格/列表  │                     │
│  └─────────────┘  └─────────────┘                     │
│         │                                                    │
│  ┌──────▼──────┐                                        │
│  │  输出格式   │                                        │
│  │ Markdown   │                                        │
│  │ PDF        │                                        │
│  │ JSON       │                                        │
│  └─────────────┘                                        │
└─────────────────────────────────────────────────────────┘

升级对比

功能v2.xv3.xv4.x
---------------------------
Markdown
Smart模式
分析
视频下载-
PDF导出--
多模态--
结构化--
增量监测--
翻译--

依赖工具

工具状态用途
------------------
Node.js运行环境
Playwright页面渲染
TurndownHTML→Markdown
Python分析/翻译
yt-dlp视频下载
weasyprintPDF导出
googletrans翻译(可选)

使用示例

基础抓取

node xia-zhua-zhua/markdown-clip.js https://example.com --smart

多模态+PDF

node content-extractor.js https://example.com --media --pdf

视频下载

python video-catcher/video_catcher_pro.py ytdlp https://b.com/video

文件结构

content-catcher/
├── SKILL.md                    # 本文档
├── xia-zhua-zhua/            # 虾抓抓模块
│   ├── markdown-clip.js       # 主脚本
│   └── ...
└── video-catcher/            # 视频模块
    ├── video_catcher_pro.py  # 主脚本
    └── ...

更新日志

v4.0.0 (最新)

  • 多模态内容提取
  • PDF导出
  • 结构化数据抽取
  • 增量更新监测
  • 翻译集成

v3.0.0

  • 融合Video Catcher

v2.1.3

  • Smart模式
  • 分析功能

版本历史

共 1 个版本

  • v4.0.1 当前
    2026-05-03 07:13 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

Psd Batch Export

luis1213899
生产级 PSD 批量工作流:分析 PSD 文本层、将 Excel/CSV 数据映射到可编辑层、预览、导出可编辑 PSD 及 PNG 批量文件。
★ 1 📥 483

令牌管理中心

luis1213899
令牌与账号密钥管理中心 v2.1 — 统一管理第三方 API 令牌、账户密码、SSH 密钥。提供分类管理、到期提醒、密码生成、加密备份、使用统计、审计日志、防暴力破解、安全删除。
★ 0 📥 411

虾转音频

luis1213899
🎵 音视频转换工具箱,基于 FFmpeg + Whisper AI,支持格式转换、提取音频、合并、分割、压缩、查看信息、音频转文字。
★ 1 📥 465