← 返回
未分类

视频/文章链接自动转存

链接全自动处理管线。识别链接类型(抖音/小红书/B站视频、公众号/网页文章),自动下载、转录/提取正文、识别内容主题、路由到对应知识库收件箱。
链接全自动处理管线。识别链接类型(抖音/小红书/B站视频、公众号/网页文章),自动下载、转录/提取正文、识别内容主题、路由到对应知识库收件箱。
不争
未分类 community v2.0.0 2 版本 99328.9 Key: 无需
★ 2
Stars
📥 108
下载
💾 0
安装
2
版本
#latest

概述

Links Pipeline Skill — 链接自动处理管线

> 收到任意链接 → 自动识别类型 → 完整下载/转录 → 路由入库


触发指令

  • 用户发送任何链接(抖音/B站/小红书/公众号/网页)
  • 用户说"处理这个链接"
  • 用户说"存这个视频/文章"

工作流程

步骤一:链接类型判断

特征类型走哪条管线
-----------------------
douyin.com / v.douyin.com抖音视频video pipeline
xiaohongshu.com / xhslink.com小红书图文或视频video(Playwright 截获视频流)或 article(抓取正文)管线
bilibili.com / b23.tvB站视频video pipeline
mp.weixin.qq.com公众号文章article pipeline
其他网页链接网页文章article pipeline
难以判断询问用户

步骤二:按管线处理

视频管线(Video Pipeline):

A. B站等开放式平台(使用 yt-dlp)

yt-dlp <url> -o video.mp4
# 尝试提取字幕(用于交叉验证)
yt-dlp --write-sub --write-auto-sub --sub-lang "zh-Hans,zh,en" --skip-download -o "/tmp/%(id)s" <url>
# 提取音频
ffmpeg -i video.mp4 -vn -acodec pcm_s16le -ar 16000 -ac 1 audio.wav
# 转文字
whisper audio.wav --model base --language zh -f txt > raw.txt

B. 抖音/小红书视频(使用 Playwright 浏览器模拟)

抖音和小红书反爬严格,无法通过 yt-dlp 直接下载,需用 Playwright(Python)模拟移动端浏览器访问,从页面中提取视频源地址。

步骤(通用,适配抖音和小红书):

  1. Playwright 打开分享短链接,设置移动端 UA(iPhone Safari),viewport 390×844
  2. 等待页面渲染完成(wait_until="networkidle" 后再 sleep(5)
  3. 从页面 标签提取 src 属性
    • 抖音:src 为 playwm 地址(带水印),替换 playwm/play/,去掉 logo_name 参数得无水印地址
    • 小红书:src 可能显示为 blob: 地址,需从网络请求中捕获真实 .mp4 地址;也可通过 page.on("response") 监听 xhscdn.com 域的视频请求
  4. 用 requests/curl + 移动端 UA + Referer 头下载视频
    • 抖音 Referer: https://www.douyin.com/
    • 小红书 Referer: https://www.xiaohongshu.com/
  5. 后续转音频 → Whisper 转录流程与 A 方案相同

⚠️ 长视频注意: 超过 15 分钟的视频用 Whisper 转音频时,建议分段处理:

# 切割为 7 分钟一段的 MP3
ffmpeg -i video.mp4 -vn -q:a 2 -ar 16000 -ac 1 -f segment -segment_time 420 -reset_timestamps 1 seg_%03d.mp3
# 逐段转录
whisper seg_000.mp3 --model tiny --language zh -f txt
whisper seg_001.mp3 --model tiny --language zh -f txt
# ... 合并
cat seg_*.txt > full_transcript.txt
# 然后用大模型清洗修正专有名词

分段原因:Whisper 处理长音频时可能因内存不足或线程锁卡死,分段后每段 2-3 分钟即可完成。

所需依赖:Python playwright + google-chrome + ffmpeg(当前环境已安装)

字幕交叉验证规则(重要):

  • 有独立字幕流(B站等)→ 下载字幕作基准,Whisper转录稿与字幕逐段对比,专有名词/工具名以字幕为准
  • 无独立字幕流(抖音等,字幕多为硬编码)→ 仅用 Whisper 转录,遇到产品名/密集术语时标记出来一起交付
  • 差异处理:两稿都有差异的地方互相校核,拿不准的标记给用户确认

清洗: 调用 DeepSeek V4 API 做最终清洗,合并交叉验证结果

文章管线(Article Pipeline):

requests.get(url) → bs4/readability 提取正文
→ 转为结构化 Markdown

步骤三:内容主题识别 → 路由入库

参考 AGENTS.md 中的路由规则(topic → 知识库映射),确认识别后按规则入库。

通过 Skill 同目录下的 config.yaml 配置路由规则,示例:

routing:
  rules:
    - topics: ["AI工具", "AI编程", "技术教程"]
      target: "快速入门/示例/AI知识库/"
  fallback: ask
  • 匹配到规则 → 直接存入 + 告知用户
  • 匹配不到 → 询问用户
  • 用户指定去处 → 执行

步骤四:结果确认

处理完成后输出:

✅ 处理完毕
来源:xxx
类型:抖音视频
时长:9:03
转录字数:3066字
已存入:您的AI知识库(自动识别)

版本历史

共 2 个版本

  • v2.0.0 升级亮点: 1. 抖音/小红书下载逻辑合并 • 以前抖音和小红书各走各的脚本,现在统一用 Playwright 浏览器模拟提取视频源,一套代码通吃两个平台 • 反爬策略更新了 UA 和 Referer,更稳定 2. 长视频分段处理 • 超过15分钟的视频自动切成7分钟一段,逐段转录再合并 • 解决服务器4GB内存下Whisper OOM的问题 3. 字幕交叉验证 • B站等有独立字幕流的,下载字幕做基准,Whisper转录跟字幕逐段对比 • 专有名词、工具名以字幕为准,准确率大幅提升 4. 路由配置模板化 • 实际配置和模板分离,用户下载后填自己的凭据就能用 • 路由规则支持自定义关键词 → 知识库路径映射 当前
    2026-05-29 23:43 安全 安全
  • v1.0.0 Initial release
    2026-05-23 21:32 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

security-compliance

Skill Vetter

spclaudehome
AI智能体技能安全预审工具。安装ClawdHub、GitHub等来源技能前,检查风险信号、权限范围及可疑模式。
★ 1,219 📥 266,852
ai-intelligence

Self-Improving + Proactive Agent

ivangdavila
自我反思+自我批评+自我学习+自组织记忆。智能体评估自身工作、发现错误并持续改进。
★ 1,363 📥 319,044
ai-intelligence

self-improving agent

pskoett
捕获经验教训、错误和纠正,以实现持续改进。使用时机:(1)命令或操作意外失败;(2)用户纠正……
★ 4,062 📥 799,911