← 返回
未分类

豆包链接

豆包分享链接内容提取与 Word 导出工具。当用户提供豆包(Doubao)分享链接并要求提取、导出、保存内容时触发此技能。支持对话分享、智能体分享、文件分享等所有豆包分享类型,输出为结构化排版的 Word 文档。触发词:豆包链接、豆包分享、提取豆包、导出豆包对话、豆包转Word、doubao share、豆包对话记录、保存豆包聊天、豆包导出、导出对话、提取对话、豆包内容、豆包转文档、doubao export、豆包聊天记录、豆包保存。
豆包分享链接内容提取与 Word 导出工具。当用户提供豆包(Doubao)分享链接并要求提取、导出、保存内容时触发此技能。支持对话分享、智能体分享、文件分享等所有豆包分享类型,输出为结构化排版的 Word 文档。触发词:豆包链接、豆包分享、提取豆包、导出豆包对话、豆包转Word、doubao share、豆包对话记录、保存豆包聊天、豆包导出、导出对话、提取对话、豆包内容、豆包转文档、doubao export、豆包聊天记录、豆包保存。
user_978d1544
未分类 community v1.0.0 1 版本 100000 Key: 无需
★ 0
Stars
📥 220
下载
💾 16
安装
1
版本
#latest

概述

Doubao Share Extractor

Overview

从豆包(Doubao)分享链接中提取对话内容,生成结构化排版的 Word 文档。支持所有分享类型(对话、智能体、文件等),保留文字、代码块、表格、图片、LaTeX 等全部内容。

工作流程

决策树

用户提供豆包分享链接
    ↓
1. 依赖检查:Python 依赖是否已安装?
    ├── 否 → 运行 install_deps.py 安装依赖
    └── 是 → 继续
    ↓
2. 选择抓取模式
    ├── --playwright 模式(推荐):启动浏览器渲染 + 自动拦截 API 响应
    │   → 运行 extract_doubao.py --url ... --playwright
    └── 静态抓取模式:直接 HTTP 请求,尝试从 HTML 提取嵌入数据
        → 运行 extract_doubao.py --url ...
    ↓
3. 数据提取是否成功?(5种方式依次尝试)
    ├── 是 → 解析消息数据 → 生成 Word
    └── 否(静态模式失败时)
        ├── 添加 --playwright 参数重试
        │   ├── Playwright 成功 → 生成 Word
        │   └── Playwright 也失败 → 回退到 Browser Automation
        └── 使用 Browser Automation 技能获取渲染后 HTML
              → 运行 extract_doubao.py --html → 生成 Word
    ↓
4. 输出 .docx 文件路径给用户

Step 1: 检查并安装依赖

首次使用时需安装 Python 依赖。运行安装脚本:

python scripts/install_deps.py

或手动安装:

pip install requests beautifulsoup4 lxml python-docx Pillow playwright
playwright install chromium

> ⚠️ Playwright 和 Chromium 是可选依赖,仅 --playwright 模式需要。如磁盘空间有限可跳过,但大多数豆包分享页需要 JS 渲染。

Step 2: 提取并生成 Word 文档

模式 A:Playwright 模式(推荐,适用于大多数豆包分享链接)

python scripts/extract_doubao.py --url "https://www.doubao.com/thread/xxxxx" --output "输出文件名.docx" --playwright

模式 B:静态抓取模式(仅对部分内嵌数据的页面有效)

python scripts/extract_doubao.py --url "https://www.doubao.com/thread/xxxxx" --output "输出文件名.docx"

模式 C:本地 HTML 文件解析(浏览器渲染后)

配合 Browser Automation 技能使用:

python scripts/extract_doubao.py --html "page.html" --output "输出文件名.docx"

可选参数

  • --image-dir:指定图片保存目录(默认:输出文件名_images/)

Step 3: 回退策略

--url 静态模式报错时,按以下顺序尝试:

  1. 添加 --playwright 参数:大多数豆包页面需要 JS 渲染
  2. 使用 Browser Automation 技能:加载 [skill:Browser Automation],打开链接获取渲染后 HTML
  3. 手动保存 HTML:在浏览器中打开链接,Ctrl+S 保存完整网页,用 --html 模式解析

数据提取原理

豆包分享页面将完整对话数据嵌入 HTML 中(SSR),代码按以下优先级依次尝试 5 种提取方式:

  1. modern-run-router-data-fn(优先级1):从