功能:本地高性能音频转文本工具,使用 Faster-Whisper large-v3-ct2 模型。支持中文优先、长音频 VAD 分段、GPU 加速(int8_float16),完全离线隐私安全。特别适合会议录音、语音笔记、视频字幕等中文音频场景。
当决定调用此技能时,请从用户消息中准确提取以下参数:
<音频路径> (必填): 用户提供的音频文件路径或文件夹路径(支持相对/绝对路径)。
<输出目录> (选填): 用户指定的输出文件夹。若未指定,默认在输入文件同级目录生成 [源文件名].json 和 .txt。
(选填): 明确指定语言时使用(如 zh、en),默认自动检测但优先中文。
(选填): 用户指定特定模型路径。
(选填): 输出格式(json 或 text),默认两者都生成。
--beam_size、--separator)根据用户需求添加。
[源文件名].json/.txt 文件。
python3,失败则 python)。脚本会自动创建虚拟环境、检测 GPU 并安装对应版本。
```bash
(python3 scripts/transcribe.py --audio_path "<音频路径>" [--output_dir "<输出目录>"] [--language
共 1 个版本