Doubao Share Extractor

Overview

从豆包（Doubao）分享链接中提取对话内容，生成结构化排版的 Word 文档。支持所有分享类型（对话、智能体、文件等），保留文字、代码块、表格、图片、LaTeX 等全部内容。

工作流程

决策树

用户提供豆包分享链接
    ↓
1. 依赖检查：Python 依赖是否已安装？
    ├── 否 → 运行 install_deps.py 安装依赖
    └── 是 → 继续
    ↓
2. 选择抓取模式
    ├── --playwright 模式（推荐）：启动浏览器渲染 + 自动拦截 API 响应
    │   → 运行 extract_doubao.py --url ... --playwright
    └── 静态抓取模式：直接 HTTP 请求，尝试从 HTML 提取嵌入数据
        → 运行 extract_doubao.py --url ...
    ↓
3. 数据提取是否成功？（5种方式依次尝试）
    ├── 是 → 解析消息数据 → 生成 Word
    └── 否（静态模式失败时）
        ├── 添加 --playwright 参数重试
        │   ├── Playwright 成功 → 生成 Word
        │   └── Playwright 也失败 → 回退到 Browser Automation
        └── 使用 Browser Automation 技能获取渲染后 HTML
              → 运行 extract_doubao.py --html → 生成 Word
    ↓
4. 输出 .docx 文件路径给用户

Step 1: 检查并安装依赖

首次使用时需安装 Python 依赖。运行安装脚本：

python scripts/install_deps.py

或手动安装：

pip install requests beautifulsoup4 lxml python-docx Pillow playwright
playwright install chromium

> ⚠️ Playwright 和 Chromium 是可选依赖，仅 --playwright 模式需要。如磁盘空间有限可跳过，但大多数豆包分享页需要 JS 渲染。

Step 2: 提取并生成 Word 文档

模式 A：Playwright 模式（推荐，适用于大多数豆包分享链接）

python scripts/extract_doubao.py --url "https://www.doubao.com/thread/xxxxx" --output "输出文件名.docx" --playwright

模式 B：静态抓取模式（仅对部分内嵌数据的页面有效）

python scripts/extract_doubao.py --url "https://www.doubao.com/thread/xxxxx" --output "输出文件名.docx"

模式 C：本地 HTML 文件解析（浏览器渲染后）

配合 Browser Automation 技能使用：

python scripts/extract_doubao.py --html "page.html" --output "输出文件名.docx"

可选参数：

--image-dir：指定图片保存目录（默认：输出文件名_images/）

Step 3: 回退策略

当 --url 静态模式报错时，按以下顺序尝试：

添加 --playwright 参数：大多数豆包页面需要 JS 渲染
使用 Browser Automation 技能：加载 [skill:Browser Automation]，打开链接获取渲染后 HTML
手动保存 HTML：在浏览器中打开链接，Ctrl+S 保存完整网页，用 --html 模式解析

数据提取原理

豆包分享页面将完整对话数据嵌入 HTML 中（SSR），代码按以下优先级依次尝试 5 种提取方式：

豆包链接

概述