← 返回
未分类

Podcast Agent

Search articles on any topic, generate a two-host dialogue script, and synthesize podcast audio via TTS. Turn long reads into listenable content.
搜索任意主题的文章,生成双主持对话脚本,并通过 TTS 合成播客音频,将长篇阅读转为可听内容。
besty0121 besty0121 来源
未分类 clawhub v1.0.2 1 版本 99689.4 Key: 无需
★ 0
Stars
📥 321
下载
💾 1
安装
1
版本
#latest

概述

播客生成器 / Podcast Agent

搜索文章 → 提取核心观点 → 写对话脚本 → 合成播客音频。

Turn articles into podcasts. Search, summarize, script, synthesize.

工作流程

你说:帮我做一期关于"AI Agent 最新进展"的播客
  ↓
我搜索相关文章 (web_search)
  ↓
我读文章,提取 3-5 个核心观点
  ↓
我写对话体脚本(主持人 A 问,专家 B 答)
  ↓
TTS 合成音频(女声主持 + 男声专家)
  ↓
发给你 MP3 文件

前置安装

pip install edge-tts

Agent 工作流

第一步:搜索文章

Agent 用 web_search 搜索相关文章,或者用工具直接抓取:

python podcast_gen.py fetch --url "https://example.com/article"

第二步:生成脚本

Agent 阅读文章后,生成对话体脚本。脚本格式:

{
  "title": "AI Agent 最新进展",
  "duration_estimate": "5 min",
  "segments": [
    {"speaker": "A", "text": "大家好,欢迎收听今天的科技播客。今天我们来聊聊 AI Agent 的最新进展。"},
    {"speaker": "B", "text": "最近这个领域确实发展很快。最大的变化是..."},
    {"speaker": "A", "text": "听起来很有意思。那具体有哪些应用场景呢?"},
    {"speaker": "B", "text": "主要有三个方面..."}
  ]
}

脚本写作指南:

  • A 是主持人,负责提问、过渡、总结
  • B 是专家,负责回答、分析、举例
  • 每段对话控制在 2-4 句话
  • 有开头问候、中间讨论、结尾总结
  • 语气自然,像真的在聊天

第三步:合成音频

python podcast_gen.py tts --script script.json --output podcast.mp3

语音配置

python podcast_gen.py voices
角色语音 ID特点
---------------------
A (主持人)zh-CN-XiaoxiaoNeural女声,温暖
B (专家)zh-CN-YunyangNeural男声,专业

完整示例

Agent 的完整操作流程

# 1. 搜索
results = web_search("AI agent 最新进展", count=3)

# 2. 抓取每篇文章
for url in result_urls:
    content = fetch(url)

# 3. 写脚本(由 Agent 完成,基于对文章的理解)
script = {
    "title": "AI Agent 周报",
    "segments": [
        {"speaker": "A", "text": "..."},
        {"speaker": "B", "text": "..."},
        ...
    ]
}
save(script, "script.json")

# 4. 合成
podcast_gen.py tts --script script.json --output ai_agent_podcast.mp3

用户交互

用户说:

> "帮我做一期关于最新手机的播客"

Agent 自动:

  1. 搜索 "最新手机发布 2026"
  2. 读 2-3 篇文章
  3. 写脚本(5 分钟,10-15 个对话轮次)
  4. 合成音频
  5. 发送 MP3

脚本模板

{
  "title": "主题名称",
  "duration_estimate": "5 min",
  "segments": [
    {"speaker": "A", "text": "开场白 + 引入话题"},
    {"speaker": "B", "text": "回应 + 第一个观点"},
    {"speaker": "A", "text": "追问细节"},
    {"speaker": "B", "text": "展开说明 + 举例"},
    {"speaker": "A", "text": "过渡到下一个话题"},
    {"speaker": "B", "text": "第二个观点"},
    {"speaker": "A", "text": "总结 + 听众建议"},
    {"speaker": "B", "text": "补充 + 展望"},
    {"speaker": "A", "text": "结尾 + 下期预告"}
  ]
}

输出

音频文件保存在 /output/ 目录,格式 MP3。

注意事项

  • edge-tts 需要联网(微软 TTS 服务)
  • 音频质量取决于脚本质量——写得越自然,听起来越好
  • 单个片段建议不超过 30 秒(约 100 字)
  • 一期 5 分钟播客约需 10-15 个对话轮次
  • 合并音频最好有 ffmpeg(没有也能用,质量稍降)

目录结构

podcast-agent/
├── SKILL.md              # 本文件
├── scripts/
│   └── podcast_gen.py    # CLI 工具
└── output/               # 生成的音频文件

版本历史

共 1 个版本

  • v1.0.2 当前
    2026-05-07 17:28 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

Task Director

besty0121
任务导演 — 将复杂任务转化为电影分镜。制定计划、审查计划,然后逐步执行并提供备选支持。可暂停、重试、跳过任何任务。
★ 0 📥 416

Experiment Notes

besty0121
跟踪、搜索并学习实验,自动记录试错、成功/失败模式及提炼的教训,防止重复犯错。
★ 0 📥 387

Context Compressor

besty0121
智能压缩上下文——对话、代码、日志等,保留关键信息并降低 token 使用量,自动识别内容类型并采用最佳压缩策略。
★ 0 📥 546