概述

Links Pipeline Skill — 链接自动处理管线

> 收到任意链接 → 自动识别类型 → 完整下载/转录 → 路由入库

触发指令

用户发送任何链接（抖音/B站/小红书/公众号/网页）
用户说"处理这个链接"
用户说"存这个视频/文章"

工作流程

步骤一：链接类型判断

特征	类型	走哪条管线
------	------	-----------
`douyin.com` / `v.douyin.com`	抖音视频	video pipeline
`xiaohongshu.com` / `xhslink.com`	小红书图文或视频	video（Playwright 截获视频流）或 article（抓取正文）管线
`bilibili.com` / `b23.tv`	B站视频	video pipeline
`mp.weixin.qq.com`	公众号文章	article pipeline
其他网页链接	网页文章	article pipeline
难以判断	—	询问用户

步骤二：按管线处理

视频管线（Video Pipeline）：

A. B站等开放式平台（使用 yt-dlp）

yt-dlp <url> -o video.mp4
# 尝试提取字幕（用于交叉验证）
yt-dlp --write-sub --write-auto-sub --sub-lang "zh-Hans,zh,en" --skip-download -o "/tmp/%(id)s" <url>
# 提取音频
ffmpeg -i video.mp4 -vn -acodec pcm_s16le -ar 16000 -ac 1 audio.wav
# 转文字
whisper audio.wav --model base --language zh -f txt > raw.txt

B. 抖音/小红书视频（使用 Playwright 浏览器模拟）

抖音和小红书反爬严格，无法通过 yt-dlp 直接下载，需用 Playwright（Python）模拟移动端浏览器访问，从页面中提取视频源地址。

步骤（通用，适配抖音和小红书）：

Playwright 打开分享短链接，设置移动端 UA（iPhone Safari），viewport 390×844
等待页面渲染完成（wait_until="networkidle" 后再 sleep(5)）
从页面标签提取 src 属性

抖音：src 为 playwm 地址（带水印），替换 playwm/ → play/，去掉 logo_name 参数得无水印地址
小红书：src 可能显示为 blob: 地址，需从网络请求中捕获真实 .mp4 地址；也可通过 page.on("response") 监听 xhscdn.com 域的视频请求

用 requests/curl + 移动端 UA + Referer 头下载视频

抖音 Referer: https://www.douyin.com/
小红书 Referer: https://www.xiaohongshu.com/

后续转音频 → Whisper 转录流程与 A 方案相同

⚠️ 长视频注意： 超过 15 分钟的视频用 Whisper 转音频时，建议分段处理：

# 切割为 7 分钟一段的 MP3
ffmpeg -i video.mp4 -vn -q:a 2 -ar 16000 -ac 1 -f segment -segment_time 420 -reset_timestamps 1 seg_%03d.mp3
# 逐段转录
whisper seg_000.mp3 --model tiny --language zh -f txt
whisper seg_001.mp3 --model tiny --language zh -f txt
# ... 合并
cat seg_*.txt > full_transcript.txt
# 然后用大模型清洗修正专有名词

分段原因：Whisper 处理长音频时可能因内存不足或线程锁卡死，分段后每段 2-3 分钟即可完成。

所需依赖：Python playwright + google-chrome + ffmpeg（当前环境已安装）

字幕交叉验证规则（重要）：

有独立字幕流（B站等）→ 下载字幕作基准，Whisper转录稿与字幕逐段对比，专有名词/工具名以字幕为准
无独立字幕流（抖音等，字幕多为硬编码）→ 仅用 Whisper 转录，遇到产品名/密集术语时标记出来一起交付
差异处理：两稿都有差异的地方互相校核，拿不准的标记给用户确认

清洗： 调用 DeepSeek V4 API 做最终清洗，合并交叉验证结果

文章管线（Article Pipeline）：

requests.get(url) → bs4/readability 提取正文
→ 转为结构化 Markdown

步骤三：内容主题识别 → 路由入库

参考 AGENTS.md 中的路由规则（topic → 知识库映射），确认识别后按规则入库。

通过 Skill 同目录下的 config.yaml 配置路由规则，示例：

routing:
  rules:
    - topics: ["AI工具", "AI编程", "技术教程"]
      target: "快速入门/示例/AI知识库/"
  fallback: ask

匹配到规则 → 直接存入 + 告知用户
匹配不到 → 询问用户
用户指定去处 → 执行

步骤四：结果确认

处理完成后输出：

✅ 处理完毕
来源：xxx
类型：抖音视频
时长：9:03
转录字数：3066字
已存入：您的AI知识库（自动识别）

版本历史

共 2 个版本

v2.0.0 升级亮点： 1. 抖音/小红书下载逻辑合并 • 以前抖音和小红书各走各的脚本，现在统一用 Playwright 浏览器模拟提取视频源，一套代码通吃两个平台 • 反爬策略更新了 UA 和 Referer，更稳定 2. 长视频分段处理 • 超过15分钟的视频自动切成7分钟一段，逐段转录再合并 • 解决服务器4GB内存下Whisper OOM的问题 3. 字幕交叉验证 • B站等有独立字幕流的，下载字幕做基准，Whisper转录跟字幕逐段对比 • 专有名词、工具名以字幕为准，准确率大幅提升 4. 路由配置模板化 • 实际配置和模板分离，用户下载后填自己的凭据就能用 • 路由规则支持自定义关键词 → 知识库路径映射当前

2026-05-29 23:43 安全安全
v1.0.0 Initial release

2026-05-23 21:32 安全安全

安全检测

腾讯云安全 (Keen)

安全，无风险

查看报告

腾讯云安全 (Sanbu)