← 返回
未分类

turbo-whisper-local-stt

当用户想要**音频转文字**、**语音转文本**、**转录录音**、**生成字幕**、**会议录音转文字**、**语音笔记转文本**、**本地转录音频**时自动触发。 使用本地 Faster-Whisper(large-v3-ct2 等模型)进行高性能、中文优先的音频转文字,完全离线、隐私安全,支持 wav/mp...
当用户需要音频转文字、语音转文本、转录录音、生成字幕、会议录音整理、语音笔记转写、本地音频转录时触发。采用本地 Faster-Whisper(large-v3-ct2 等模型),高性能、中文优先,完全离线运行,保护隐私,支持 wav、mp3 等格式。
wangminrui2022
未分类 clawhub v1.0.6 1 版本 100000 Key: 无需
★ 0
Stars
📥 544
下载
💾 0
安装
1
版本
#latest

概述

Turbo-Whisper-Local-STT

功能:本地高性能音频转文本工具,使用 Faster-Whisper large-v3-ct2 模型。支持中文优先、长音频 VAD 分段、GPU 加速(int8_float16),完全离线隐私安全。特别适合会议录音、语音笔记、视频字幕等中文音频场景。

触发时机(Triggers)

  • 用户提供音频文件(.wav、.mp3、.m4a 等)或音频文件夹路径,并表达转文字、转录、生成字幕等意图。
  • 用户说“帮我转录”“语音转文本”“音频转文字”等口语。
  • 支持单个文件或整个文件夹批量处理。

支持的模型(推荐顺序)

  1. faster-whisper-base-ct2 → 默认推荐(低配设备 / 追求极速)
  2. faster-whisper-large-v3-ct2 → 高精度需求 / 会议转录
  3. faster-whisper-large-v3-turbo-ct2 → 性能与精度的平衡点

参数提取指南

当决定调用此技能时,请从用户消息中准确提取以下参数:

  1. <音频路径> (必填): 用户提供的音频文件路径或文件夹路径(支持相对/绝对路径)。
  2. <输出目录> (选填): 用户指定的输出文件夹。若未指定,默认在输入文件同级目录生成 [源文件名].json.txt
  3. (选填): 明确指定语言时使用(如 zhen),默认自动检测但优先中文。
  4. (选填): 用户指定特定模型路径。
  5. (选填): 输出格式(jsontext),默认两者都生成。
  6. 其他可选参数(如 --beam_size--separator)根据用户需求添加。

执行步骤

  1. 解析路径:识别用户的音频文件或文件夹路径。
  2. 默认目标:若未指定输出路径,默认在输入同级创建 [源文件名].json/.txt 文件。
  3. 调用命令:使用以下兼容性命令启动脚本(优先 python3,失败则 python)。脚本会自动创建虚拟环境、检测 GPU 并安装对应版本。

```bash

(python3 scripts/transcribe.py --audio_path "<音频路径>" [--output_dir "<输出目录>"] [--language ] [--model_path "<模型路径>"] [--output ] [--beam_size 5] [--separator " "]) || (python scripts/transcribe.py --audio_path "<音频路径>" [--output_dir "<输出目录>"] [--language ] [--model_path "<模型路径>"] [--output ] [--beam_size 5] [--separator " "])

版本历史

共 1 个版本

  • v1.0.6 当前
    2026-05-03 05:01 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

mp4-to-mp3-extractor

wangminrui2022
批量将指定目录下的 .mp4 视频提取音频转为 .mp3,支持自定义源目录和输出目录,未指定输出时自动在源目录后加 _audio,自动管理 Python 虚拟环境,保持层级结构,兼容 python3 与 python。
★ 0 📥 622

purevocals-uvr-automator

wangminrui2022
当用户需要一键批量从音频文件中提取纯人声(干声/Vocals Only)或去除伴奏/背景音乐时,自动调用此技能。专用于从.mp3/.wav/.flac等音频中提取干净干声(Acapella)或制作伴奏,支持单文件或整文件夹批量处理。
★ 0 📥 526

melo-tts-metadata-creator

wangminrui2022
在用户需要为MeloTTS 训练或微调生成 metadata.list 时自动触发,专注处理 .wav 音频及对应 .txt 转录,自动生成符合最新官方标准的 metadata.list(格式:音频路径|speaker|语言|文本),支持单
★ 0 📥 559