← 返回
效率工具

Content Collector

个人内容收藏与知识管理系统。收藏、整理、检索、二创。 Use when: (1) 用户说"收藏"/"存一下"/"记录下来"/"save"/"bookmark"/"clip", (2) 用户要求搜索之前收藏的内容, (3) 用户要求基于收藏内容生成社交媒体文案(二创), (4) 用户提到"之前看过一个..."/"上...
个人内容收藏与知识管理系统。支持收藏、整理、检索和二创。触发场景:(1)用户说收藏/存一下/记录下来/save/bookmark/clip时,(2)用户要求搜索之前收藏的内容时,(3)用户要求基于收藏内容生成社交媒体文案(二创)时,(4)用户提到之前看过/上次的收藏内容时。
lovensky1992-wk
效率工具 clawhub v2.0.1 3 版本 99893 Key: 无需
★ 0
Stars
📥 934
下载
💾 16
安装
3
版本
#latest

概述

Content Collector - 个人内容收藏系统

收藏好内容 → 结构化整理 → 关键词检索 → 二次创作

数据位置

  • 主存储: /collections/(articles/ tweets/ videos/ wechat/ ideas/)
  • Obsidian 同步: /收藏/(每次收藏同时写入)
  • 索引: collections/index.md + collections/tags.md(自动维护)

收藏工作流

Step 0: 去重(每次必做)

有 URL 时: obsidian search query="" total(去掉 https:// 前缀)或 grep -rl "" collections/

返回 > 0 → 已收藏,终止。返回 0 → 继续。

Step 1: URL 路由

按 URL 匹配处理路径。详见 references/url-routing-and-site-specs.md

URL 模式category处理方式
-----------------------------
内网域名articlesChrome Relay,不调 web_fetch
arxiv.org/abs/*articles提取 abstract/authors
github.com//articlesREADME + stars/language
mp.weixin.qq.comwechat优先 browser
youtube.com/watch*videosSupadata transcript
B站videosvideo_transcribe.sh 本地转录
小红书/抖音(视频)videosvideo_transcribe.sh 本地转录
x.com//status/tweets提取互动数据,thread 展开
其他articles默认流程

Step 2: 内容提取

文章/网页:

  1. supadata_fetch.py web (降级: web_fetch
  2. Schema.org 提取 — 详见 references/schema-extraction-spec.md
  3. 插图提取+下载(必做)— 详见 references/image-extraction-spec.md
  4. 主题关键词提取 — 详见 references/theme-extraction-spec.md

视频:

  1. 元数据: supadata_fetch.py metadata bilibili_extract.py
  2. 转录: bash scripts/video_transcribe.sh (自动检测平台和字幕源)
  3. 精彩片段提取(≥10min) — 详见 references/highlight-extraction-spec.md
  4. 主题关键词提取

推文/短内容: 直接提取文本+互动数据

Step 3: 写文件

  1. 生成 collections/{category}/YYYY-MM-DD-slug.md(格式见下方 Schema)
  2. 内容概览图(>1000字文章) — 详见 references/content-overview-spec.md
  3. 同步到 Obsidian — 详见 references/obsidian-integration.md
  4. obsidian daily:append content="- 📌 收藏了 [[{标题}]]({source})| {一句话摘要}"
  5. 更新 index.md + tags.md

Step 3.5: 微信图片缓存(wechat 类必做)

如果 URL 是微信公众号(mp.weixin.qq.com),写完收藏文件后运行:

bash scripts/cache-wechat-images.sh <刚写入的收藏文件>

下载微信 CDN 图片到本地 collections/images//,防止图片过期 404。

Step 4: 关联匹配

运行 bash scripts/post-collect.sh <刚写入的收藏文件>

脚本自动匹配活跃项目和相关收藏,更新 frontmatter 的 related_projects。

如有相关收藏,在回复中附带提及。

仍需手动匹配 collections/topics/topic-pool.md → 追加到 temp/handoffs/collector-to-writing.md

写文件前自检

每次写 collections/ 文件前,确认以下步骤已完成。缺项标注 incomplete: true,不允许静默跳过。

  • 去重 ✓ → 内容提取 ✓ → 插图(文章类,必做) ✓ → 主题关键词 ✓ → 写文件 ✓ → Obsidian同步 ✓ → Daily Note ✓
  • 写 tags 前运行 bash scripts/normalize-tags.sh ... 检查是否有已有近似 tag,优先复用已有 tag 名称

存储 Schema

文件命名: YYYY-MM-DD-slug.md

---
title: ""
source: ""
url: ""
author: ""
date_published: ""
date_collected: ""
tags: []
category: "articles|tweets|videos|wechat|ideas"
language: "zh|en"
summary: ""
themes: []              # 5-7 个概念切面
schema_type: ""         # Schema.org @type(可选)
schema_data: {}         # ≤10 key-value(可选)
incomplete: false
# 视频专属
duration: ""
platform: ""
bvid: ""
stats: {}
subtitle_source: ""     # native_cc|whisper
highlights: []          # 精彩片段
related_projects: []
---

内容结构

  • 内容概览(Mermaid,>1000字触发)
  • 核心观点(3-7个要点)
  • 精彩片段(视频≥10min)
  • 要点摘录(blockquote 金句)
  • 热门评论精选(视频类)
  • 我的笔记
  • 原文摘要(200-500字)

英文内容

默认 storytelling 翻译风格。术语参照 /references/glossary-ai-zh.md,首次出现 中文(English) 格式。

检索

  1. 标签: tags.md
  2. 全文: grep -ril "keyword" collections/
  3. 返回匹配列表 + 摘要

二创

按选题从收藏库筛选素材,交给 xiaohongshu-opswemp-ops 处理。本 skill 只负责供料。

工具脚本

脚本用途
------------
`scripts/supadata_fetch.py web\transcript\metadata `Supadata API 抓取
scripts/bilibili_extract.py B站元数据
scripts/video_transcribe.sh 视频转录(自动检测平台)
scripts/sync_to_obsidian.py批量同步到 Obsidian
scripts/cache-wechat-images.sh 微信 CDN 图片本地缓存
scripts/normalize-tags.sh ...标签归一化去重
scripts/post-collect.sh 收藏后自动关联分析

🔴 Final: 机械验证(不可跳过)

通知用户前运行:

bash scripts/skill-verify.sh content-collector <collections-file-path>
# 例: bash scripts/skill-verify.sh content-collector collections/wechat/2026-04-23-xxx.md
  • ✅ ALL PASSED → 回复用户收藏结果
  • ❌ FAILED → 按输出补齐缺失项(Obsidian 同步/插图/index.md 等),重新验证直到通过

绝不在验证未通过时回复用户"已完成"。

收藏结果通知

  • 成功: 📌 已收藏:<标题>\n核心:<一句话摘要>\n标签:<3-5个标签>
  • 重复: 📌 已存在:<标题>(之前已收藏过)
  • 失败: ❌ 收藏失败:\n原因:<失败原因>

下一步建议(条件触发)

触发条件推荐
---------------
与公众号选题方向高度相关用 wemp-ops 写
适合小红书短图文用 xiaohongshu-ops 改写
某博主收藏 ≥3 条用 x-profile-deep-dive 画像
涉及技术方案/架构决策存到 memory 做长期参考

版本历史

共 3 个版本

  • v2.0.1 当前
    2026-05-07 03:31 安全 安全
  • v2.0.0
    2026-05-01 02:55 安全 安全
  • v1.0.0
    2026-03-20 03:44 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

productivity

Nano Pdf

steipete
使用nano-pdf CLI通过自然语言指令编辑PDF
★ 275 📥 114,973
productivity

Weather

steipete
获取当前天气和预报(无需API密钥)
★ 446 📥 226,471
productivity

Word / DOCX

ivangdavila
创建、检查和编辑 Microsoft Word 文档及 DOCX 文件,支持样式、编号、修订记录、表格、分节符及兼容性检查等功能。
★ 440 📥 148,188