功能:专为 MeloTTS 训练/微调设计的 metadata.list 生成工具。支持单音色与多音色模式,特别适配 wav 文件和 txt 转录文件位于两个不同目录、每个子目录代表一个说话人的场景。
--speaker 参数强制统一说话人(单音色模式)
./models/ 目录
metadata.list(UTF-8 无 BOM)
当决定调用此技能时,请从用户消息中提取以下参数:
--wav_dir (必填): 音频文件所在目录
--txt_dir (选填): 文本转录文件所在目录(若不提供且启用 Whisper,则自动转录)
--speaker (选填): 强制指定统一说话人名称(单音色模式)
--lang (选填): 语言代码,如 ZH、EN 等
--output (选填): 输出 metadata.list 的路径(默认当前目录)
--recursive (选填): 是否递归处理子目录
--use_whisper (选填): 是否强制使用 Whisper 转录
metadata.list。
python3,失败则 python)。脚本会自动检测 Whisper 依赖。
```bash
(python3 scripts/generate_metadata_list.py --wav_dir "<音频目录>" --txt_dir "<文本目录>" [--speaker <姓名>] [--lang {ZH,EN}] [--output <路径>] [--recursive] [--use_whisper]) || (python scripts/generate_metadata_list.py --wav_dir "<音频目录>" --txt_dir "<文本目录>" [--speaker <姓名>] [--lang {ZH,EN}] [--output <路径>] [--recursive] [--use_whisper])
共 2 个版本