speech2text

Automatically converts speech messages in ogg/wav/mp3/m4a formats to text using offline Faster-Whisper with ffmpeg format conversion.

自动将 ogg、wav、mp3、m4a 格式的语音消息通过离线 Faster‑Whisper（配合 ffmpeg 格式转换）转换为文字。

未分类 clawhub v1.0.0 1 版本 100000 Key: 无需

★ 0

Stars

📥 313

下载

💾 0

安装

版本

#latest

概述

STT - 语音识别 (Speech-to-Text)

将语音消息识别为文字。支持 ogg/wav/mp3/m4a 格式。

触发方式

用户发送语音消息时自动触发
或者手动调用 skill

功能

自动识别语音 - 收到语音消息时自动转文字
离线识别 - 使用 Faster-Whisper，无需网络
格式转换 - 自动用 ffmpeg 转换音频格式

依赖

Python 包: faster-whisper, pydub
ffmpeg: C:\ffmpeg\bin (需要在系统 PATH 中)

安装

pip install faster-whisper pydub

使用示例

用户发送语音 → 自动识别为文字 → 根据文字内容回复

配置

模型大小: tiny (可改为 base/small/medium/large，精度更高但更慢)
默认语言: zh (中文)
ffmpeg 路径: C:\ffmpeg\bin

原理

接收语音文件 (ogg)
用 ffmpeg 转换为 wav (16000Hz, mono)
用 Faster-Whisper 识别为文字
返回识别结果并继续对话

版本历史

共 1 个版本

v1.0.0 当前

2026-05-07 12:19 安全安全

安全检测

腾讯云安全 (Keen)

安全，无风险

查看报告

腾讯云安全 (Sanbu)

安全，无风险

查看报告

🔗 相关推荐

design-media

Video Frames

steipete

使用 ffmpeg 从视频中提取帧或短片。

★ 134 📥 52,903

design-media

Openai Whisper

steipete

使用 Whisper CLI 进行本地语音转文字（无需 API 密钥）

★ 331 📥 93,893

design-media

Nano Banana Pro

steipete

使用 Nano Banana Pro (Gemini 3 Pro Image) 生成或编辑图像。支持文生图、图生图及 1K/2K/4K 分辨率，适用于图像创建、修改及编辑请求，使用 --input-image 指定输入图像。

★ 430 📥 117,018