概述

Turbo-Whisper-Local-STT

功能：本地高性能音频转文本工具，使用 Faster-Whisper large-v3-ct2 模型。支持中文优先、长音频 VAD 分段、GPU 加速（int8_float16），完全离线隐私安全。特别适合会议录音、语音笔记、视频字幕等中文音频场景。

触发时机（Triggers）

用户提供音频文件（.wav、.mp3、.m4a 等）或音频文件夹路径，并表达转文字、转录、生成字幕等意图。
用户说“帮我转录”“语音转文本”“音频转文字”等口语。
支持单个文件或整个文件夹批量处理。

支持的模型（推荐顺序）

faster-whisper-base-ct2 → 默认推荐（低配设备 / 追求极速）
faster-whisper-large-v3-ct2 → 高精度需求 / 会议转录
faster-whisper-large-v3-turbo-ct2 → 性能与精度的平衡点

参数提取指南

当决定调用此技能时，请从用户消息中准确提取以下参数：

<音频路径> (必填): 用户提供的音频文件路径或文件夹路径（支持相对/绝对路径）。
<输出目录> (选填): 用户指定的输出文件夹。若未指定，默认在输入文件同级目录生成 [源文件名].json 和 .txt。
(选填): 明确指定语言时使用（如 zh、en），默认自动检测但优先中文。
(选填): 用户指定特定模型路径。
(选填): 输出格式（json 或 text），默认两者都生成。
其他可选参数（如 --beam_size、--separator）根据用户需求添加。

执行步骤

解析路径：识别用户的音频文件或文件夹路径。
默认目标：若未指定输出路径，默认在输入同级创建 [源文件名].json/.txt 文件。
调用命令：使用以下兼容性命令启动脚本（优先 python3，失败则 python）。脚本会自动创建虚拟环境、检测 GPU 并安装对应版本。

```bash

(python3 scripts/transcribe.py --audio_path "<音频路径>" [--output_dir "<输出目录>"] [--language ] [--model_path "<模型路径>"] [--output ] [--beam_size 5] [--separator " "]) || (python scripts/transcribe.py --audio_path "<音频路径>" [--output_dir "<输出目录>"] [--language ] [--model_path "<模型路径>"] [--output ] [--beam_size 5] [--separator " "])

版本历史

共 1 个版本

v1.0.6 当前

2026-05-03 05:01 安全安全

安全检测

腾讯云安全 (Keen)

安全，无风险

查看报告

腾讯云安全 (Sanbu)

安全，无风险

查看报告

turbo-whisper-local-stt

概述

Turbo-Whisper-Local-STT

触发时机（Triggers）

支持的模型（推荐顺序）

参数提取指南

执行步骤

版本历史

安全检测

腾讯云安全 (Keen)

腾讯云安全 (Sanbu)

🔗 相关推荐

mp4-to-mp3-extractor

purevocals-uvr-automator

melo-tts-metadata-creator