概述

melo-tts-metadata-creator

功能：专为 MeloTTS 训练/微调设计的 metadata.list 生成工具。支持单音色与多音色模式，特别适配 wav 文件和 txt 转录文件位于两个不同目录、每个子目录代表一个说话人的场景。

触发时机（Triggers）

用户提到 “MeloTTS”“metadata.list”“训练数据准备”“微调数据集”
用户有 wav 音频文件夹和对应 txt 转录，需要生成训练所需的 metadata 文件
需要自动转录（无 txt 时用 Whisper）
想处理多说话人（多音色）数据集

核心优势

支持 wav 和 txt 分离存放（目录结构完全一致）
自动按第一级子目录名称提取 speaker（多音色模式）
支持 --speaker 参数强制统一说话人（单音色模式）
内置 Whisper 自动转录功能（无 txt 时自动生成）
Whisper 模型下载到 ./models/ 目录
生成完全符合 MeloTTS 官方最新标准的 metadata.list（UTF-8 无 BOM）
转录失败时优雅跳过，继续处理其他文件

支持的模型（推荐顺序）

openai/whisper-base（平衡速度与准确率）

参数提取指南

当决定调用此技能时，请从用户消息中提取以下参数：

--wav_dir (必填): 音频文件所在目录
--txt_dir (选填): 文本转录文件所在目录（若不提供且启用 Whisper，则自动转录）
--speaker (选填): 强制指定统一说话人名称（单音色模式）
--lang (选填): 语言代码，如 ZH、EN 等
--output (选填): 输出 metadata.list 的路径（默认当前目录）
--recursive (选填): 是否递归处理子目录
--use_whisper (选填): 是否强制使用 Whisper 转录

执行步骤

解析目录：自动识别 --wav_dir 和 --txt_dir，支持多级子目录结构。
默认目标：若未指定 --output，默认在当前工作目录生成 metadata.list。
调用命令：使用以下兼容性命令启动脚本（优先 python3，失败则 python）。脚本会自动检测 Whisper 依赖。

```bash

(python3 scripts/generate_metadata_list.py --wav_dir "<音频目录>" --txt_dir "<文本目录>" [--speaker <姓名>] [--lang {ZH,EN}] [--output <路径>] [--recursive] [--use_whisper]) || (python scripts/generate_metadata_list.py --wav_dir "<音频目录>" --txt_dir "<文本目录>" [--speaker <姓名>] [--lang {ZH,EN}] [--output <路径>] [--recursive] [--use_whisper])

版本历史

共 2 个版本

v1.0.6 当前

2026-05-03 05:03 安全安全
v1.0.0

2026-03-31 07:23

安全检测

腾讯云安全 (Keen)

安全，无风险

查看报告

腾讯云安全 (Sanbu)

安全，无风险

查看报告

melo-tts-metadata-creator

概述

melo-tts-metadata-creator

触发时机（Triggers）

核心优势

支持的模型（推荐顺序）

参数提取指南

执行步骤

版本历史

安全检测

腾讯云安全 (Keen)

腾讯云安全 (Sanbu)

🔗 相关推荐

mp4-to-mp3-extractor

funasr-punctuation-restore

turbo-whisper-local-stt