← 返回
未分类

lihang-douyin-text

抖音视频文案提取与乐享知识库同步。完整流水线:下载抖音视频 → Whisper 语音转文字 → AI 语义分段(时间轴编号)→ 保存本地 Markdown → 自动同步到乐享知识库「抖音」。 触发条件:用户提供抖音视频链接(v.douyin.com 或 douyin.com),并希望提取文案、 保存到知识库。也适用于用户直接粘贴抖音文案文本要求分段保存的场景。
抖音链接下载文案
user_4ef54573
未分类 community v1.0.0 1 版本 96666.7 Key: 无需
★ 1
Stars
📥 9
下载
💾 0
安装
1
版本
#latest

概述

抖音文案提取器

概述

端到端将抖音视频转换为结构化 Markdown 文案,并自动同步到乐享知识库。

一条抖音链接进去,一篇编号分段的知识库文章出来。

标准工作流

用户提供抖音链接
    ↓
① 下载视频(douyin-download-v2 download)
    ↓
② 语音转文字(本地 Whisper small 模型,中文)
    ↓
③ AI 语义分段(按自然语义分段落,编号 ①②③...)
    ↓
④ 保存到工作目录:{视频ID}_{视频标题}.md
    ↓
⑤ 同步到乐享「抖音」知识库(查当前第N篇,按序命名为"第N+1篇"上传)

Step 1: 下载视频

使用 douyin-download-v2 技能下载视频:

node ~/.workbuddy/skills/douyin-download-v2/douyin.js download "<抖音链接>" -o /tmp/dy-text
  • 输出目录必须先存在:mkdir -p /tmp/dy-text
  • 下载成功后会输出视频 ID 和标题
  • 超时设置为 60000ms,CDN 可能较慢
  • 如果下载返回 0 字节文件,尝试使用 APP User-Agent 直接 curl:

curl -L -A "com.ss.android.ugc.aweme/130200 (Linux; U; Android 13; zh_CN)" "" -o /tmp/dy-text/.mp4

Step 2: 语音转文字

使用本地 Whisper small 模型转录中文音频:

/usr/bin/python3 -c "
import whisper
model = whisper.load_model('small')
result = model.transcribe('/tmp/dy-text/<视频ID>.mp4', language='zh')
print(result['text'])
"
  • 超时设置为 300000ms(5 分钟),Whisper 转录较慢
  • 输出为纯文本,用于后续分段

Step 3: AI 语义分段

根据转录文本进行自然语义分段,遵循以下原则:

  • 按逻辑段落划分,不是按句子
  • 保持原文风格和叙事节奏
  • 每个段落用 ① 段落标题 格式编号
  • 段落之间用 --- 分隔
  • 保持原文口语风格,保留所有网络用语和修辞

Step 4: 保存本地文件

文件命名规则:{视频ID}_{视频标题}.md

格式模板:

# {视频标题}

> 视频ID:{视频ID}
> 提取时间:{YYYY-MM-DD}

---

**① 段落标题**

段落内容...

---

**② 段落标题**

段落内容...

---
(以此类推)

保存到当前工作目录(用户指定或默认项目目录)。

Step 5: 同步到乐享知识库

详细配置见 references/lexiang-config.md

5.1 查询当前序号

使用 mcp__lexiang__entry_list_children 查询父节点下的所有文章:

  • parent_id: "a7df7ca149844bceb0e2b7e260360ecf"
  • limit: 50
  • sort_by: "sort_id"

从返回结果中找到最大序号 N。

5.2 上传为第 N+1 篇

使用 mcp__lexiang__entry_import_content 上传:

  • space_id: "6f2366cc327c432e96c7d2ceb1eecde8"
  • parent_id: "a7df7ca149844bceb0e2b7e260360ecf"
  • name: "第N+1篇"
  • content_type: "markdown"
  • content: 完整的 Markdown 内容(与本地保存的文件内容一致)

5.3 错误处理

  • 乐享有频率限制,连续上传间隔 3-6 秒
  • 遇到 500 错误时,等待 2-3 秒后重试
  • 如果乐享 MCP 连接断开,提示用户检查连接器状态

用户直接提供文案的场景

如果用户跳过链接直接提供文案标题和文本(无视频下载),则:

  1. 跳过 Step 1 和 Step 2
  2. 直接从 Step 3 开始(AI 语义分段)
  3. 文件命名使用标题,无需视频 ID
  4. 后续步骤相同

特殊场景:仿写

如果用户要求仿写文案(而非提取),使用以下人设:

  • 身份:00 后女打工人,第一人称叙事
  • 语气:网感口语,像在跟朋友碎碎念
  • 特征:网络用语和梗、自嘲式幽默、小确幸+小抱怨、真实细节感、结尾收束有态度、节奏感强
  • 禁忌:不用书面语、不堆砌词藻、不鸡汤、不 emoji 堆砌

文件命名

  • 有视频 ID:{视频ID}_{视频标题}.md
  • 无视频 ID(用户直接提供文案):{标题}.md

版本历史

共 1 个版本

  • v1.0.0 Initial release 当前
    2026-06-10 21:24 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

security-compliance

Skill Vetter

spclaudehome
AI智能体技能安全预审工具。安装ClawdHub、GitHub等来源技能前,检查风险信号、权限范围及可疑模式。
★ 1,211 📥 266,210
ai-intelligence

self-improving agent

pskoett
捕获经验教训、错误和纠正,以实现持续改进。使用时机:(1)命令或操作意外失败;(2)用户纠正……
★ 4,056 📥 796,390
ai-intelligence

Self-Improving + Proactive Agent

ivangdavila
自我反思+自我批评+自我学习+自组织记忆。智能体评估自身工作、发现错误并持续改进。
★ 1,350 📥 317,745