火山引擎豆包语音播客生成
基于火山引擎 PodcastTTS API,输入主题文本,AI 自动生成双人对话播客音频(含片头音乐、多轮对话、片尾结束)。
前提条件
- Python >= 3.9
- 安装
websockets>=14.0 - 火山引擎账号已开通 PodcastTTS 服务
快速开始
1. 环境变量配置(推荐)
export VOLC_APPID="your_appid"
export VOLC_ACCESS_TOKEN="your_access_token"
export VOLC_APP_KEY="your_app_key" # 可选,默认 aGjiRDfUWi
2. 命令行调用
python scripts/generate_podcast.py "Hermes和OpenClaw怎么选"
3. Python 代码调用
import asyncio
from scripts.generate_podcast import PodcastGenerator
async def main():
gen = PodcastGenerator(
appid="3398567544",
access_token="your_token",
)
result = await gen.generate(
text="今天来聊聊AI编程助手",
output_dir="./output",
encoding="mp3",
use_head_music=True,
)
print(result["final_files"]) # 输出音频路径列表
asyncio.run(main())
参数说明
PodcastGenerator 初始化参数
| 参数 | 类型 | 必填 | 默认值 | 说明 |
|---|
| ------ | ------ | ------ | -------- | ------ |
| appid | str | 是 | - | 应用 ID |
| access_token | str | 是 | - | Access Token |
| app_key | str | 否 | aGjiRDfUWi | App Key |
| resource_id | str | 否 | volc.service_type.10050 | 资源 ID |
| endpoint | str | 否 | wss://openspeech... | WebSocket 端点 |
generate() 方法参数
| 参数 | 类型 | 默认 | 说明 |
|---|
| ------ | ------ | ------ | ------ |
| text | str | 必填 | 输入主题文本 |
| output_dir | str | output | 输出目录 |
| encoding | str | mp3 | 音频格式: mp3/wav/pcm |
| use_head_music | bool | True | 是否加片头音乐 |
| use_tail_music | bool | False | 是否加片尾音乐 |
| only_nlp_text | bool | False | 只生成文本不生成音频 |
| return_audio_url | bool | False | 返回音频URL而非流式 |
| speaker_info | dict | {"random_order":False} | 说话人配置 |
| speech_rate | int | 0 | 语速 |
| skip_round_audio_save | bool | False | 跳过分段保存 |
| voice_type | str | None | 音色类型: zh_male / zh_female / multi |
| normalize_audio | bool | False | 是否对音频进行音量归一化 |
| fade_in_out | bool | False | 是否添加淡入淡出效果 |
音色选择 (voice_type)
| 值 | 说明 |
|---|
| ------ | ------ |
| None | 默认,AI 自动分配 |
| zh_male | 中文男声 |
| zh_female | 中文女声 |
| multi | 多人对话模式 |
返回结果
{
"success": True,
"output_dir": "/abs/path/to/output",
"segment_files": ["output/head_music_-1.mp3", "output/zh_female_0.mp3", ...],
"final_files": ["output/podcast_final_1234567890.mp3"],
"duration": 164.51,
"texts": [
{"text": "今天这期...", "speaker": "zh_female_mizaitongxue_v2_saturn_bigtts"},
...
],
"usage": {"input_text_tokens": 0, "output_audio_tokens": 2800, "total_tokens": 2800}
}
CLI 参数
python scripts/generate_podcast.py "主题文本" \
-o ./output \
-f mp3 \
--no-head-music \
--tail-music \
--only-text \
--voice-type zh_female \
--normalize \
--fade \
--appid YOUR_APPID \
--token YOUR_TOKEN \
-v
技术说明
- 协议: 自定义二进制 WebSocket 协议(封装在 protocols.py 中)
- 流式下发: 音频以 4~10KB 分片实时流式下发
- 断点续传: 支持从中断轮次自动重试
- 音频合并: 自动合并所有分段为完整音频
- 音频后处理: 支持音量归一化(peak -1dB)和淡入淡出(0.5s)
注意事项
- Access Token 需从火山引擎控制台获取
- 每次调用消耗相应的 audio token
- 音频采样率固定为 24kHz
- 对话角色由 AI 自动分配(通常为一男一女双人对话)
- 音色选择
voice_type 为提示性参数,最终音色由服务端根据内容智能匹配