← 返回
未分类

melo-tts-metadata-creator

当用户需要为 **MeloTTS** 训练或微调生成 metadata.list 文件时自动触发。 专门处理 .wav 音频文件和对应的 .txt 转录文本,自动生成符合 MeloTTS 官方最新标准的 metadata.list(格式:音频路径|speaker|语言|文本)。 支持单音色和多音色模式: - wa...
在用户需要为MeloTTS 训练或微调生成 metadata.list 时自动触发,专注处理 .wav 音频及对应 .txt 转录,自动生成符合最新官方标准的 metadata.list(格式:音频路径|speaker|语言|文本),支持单/多音色模式。
wangminrui2022
未分类 clawhub v1.0.6 2 版本 100000 Key: 无需
★ 0
Stars
📥 538
下载
💾 3
安装
2
版本
#latest

概述

melo-tts-metadata-creator

功能:专为 MeloTTS 训练/微调设计的 metadata.list 生成工具。支持单音色与多音色模式,特别适配 wav 文件和 txt 转录文件位于两个不同目录、每个子目录代表一个说话人的场景。

触发时机(Triggers)

  • 用户提到 “MeloTTS”“metadata.list”“训练数据准备”“微调数据集”
  • 用户有 wav 音频文件夹和对应 txt 转录,需要生成训练所需的 metadata 文件
  • 需要自动转录(无 txt 时用 Whisper)
  • 想处理多说话人(多音色)数据集

核心优势

  • 支持 wav 和 txt 分离存放(目录结构完全一致)
  • 自动按第一级子目录名称提取 speaker(多音色模式)
  • 支持 --speaker 参数强制统一说话人(单音色模式)
  • 内置 Whisper 自动转录功能(无 txt 时自动生成)
  • Whisper 模型下载到 ./models/ 目录
  • 生成完全符合 MeloTTS 官方最新标准的 metadata.list(UTF-8 无 BOM)
  • 转录失败时优雅跳过,继续处理其他文件

支持的模型(推荐顺序)

  1. openai/whisper-base(平衡速度与准确率)

参数提取指南

当决定调用此技能时,请从用户消息中提取以下参数:

  1. --wav_dir (必填): 音频文件所在目录
  2. --txt_dir (选填): 文本转录文件所在目录(若不提供且启用 Whisper,则自动转录)
  3. --speaker (选填): 强制指定统一说话人名称(单音色模式)
  4. --lang (选填): 语言代码,如 ZHEN
  5. --output (选填): 输出 metadata.list 的路径(默认当前目录)
  6. --recursive (选填): 是否递归处理子目录
  7. --use_whisper (选填): 是否强制使用 Whisper 转录

执行步骤

  1. 解析目录:自动识别 --wav_dir 和 --txt_dir,支持多级子目录结构。
  2. 默认目标:若未指定 --output,默认在当前工作目录生成 metadata.list
  3. 调用命令:使用以下兼容性命令启动脚本(优先 python3,失败则 python)。脚本会自动检测 Whisper 依赖。

```bash

(python3 scripts/generate_metadata_list.py --wav_dir "<音频目录>" --txt_dir "<文本目录>" [--speaker <姓名>] [--lang {ZH,EN}] [--output <路径>] [--recursive] [--use_whisper]) || (python scripts/generate_metadata_list.py --wav_dir "<音频目录>" --txt_dir "<文本目录>" [--speaker <姓名>] [--lang {ZH,EN}] [--output <路径>] [--recursive] [--use_whisper])

版本历史

共 2 个版本

  • v1.0.6 当前
    2026-05-03 05:03 安全 安全
  • v1.0.0
    2026-03-31 07:23

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

mp4-to-mp3-extractor

wangminrui2022
批量将指定目录下的 .mp4 视频提取音频转为 .mp3,支持自定义源目录和输出目录,未指定输出时自动在源目录后加 _audio,自动管理 Python 虚拟环境,保持层级结构,兼容 python3 与 python。
★ 0 📥 622

funasr-punctuation-restore

wangminrui2022
当用户需要对文本、ASR 转录结果或无标点文本添加标点,或批量处理文件/目录时自动触发。使用 FunASR ct-punc 模型,可为单段文本、单个 .txt 文件或整个目录一键恢复中文/英文标点。支持直接输入文本或文件路径。
★ 0 📥 557

turbo-whisper-local-stt

wangminrui2022
当用户需要音频转文字、语音转文本、转录录音、生成字幕、会议录音整理、语音笔记转写、本地音频转录时触发。采用本地 Faster-Whisper(large-v3-ct2 等模型),高性能、中文优先,完全离线运行,保护隐私,支持 wav、mp3
★ 0 📥 559