← 返回
未分类

speech2text

Automatically converts speech messages in ogg/wav/mp3/m4a formats to text using offline Faster-Whisper with ffmpeg format conversion.
自动将 ogg、wav、mp3、m4a 格式的语音消息通过离线 Faster‑Whisper(配合 ffmpeg 格式转换)转换为文字。
lqwall26 lqwall26 来源
未分类 clawhub v1.0.0 1 版本 100000 Key: 无需
★ 0
Stars
📥 313
下载
💾 0
安装
1
版本
#latest

概述

STT - 语音识别 (Speech-to-Text)

将语音消息识别为文字。支持 ogg/wav/mp3/m4a 格式。

触发方式

  • 用户发送语音消息时自动触发
  • 或者手动调用 skill

功能

  1. 自动识别语音 - 收到语音消息时自动转文字
  2. 离线识别 - 使用 Faster-Whisper,无需网络
  3. 格式转换 - 自动用 ffmpeg 转换音频格式

依赖

  • Python 包: faster-whisper, pydub
  • ffmpeg: C:\ffmpeg\bin (需要在系统 PATH 中)

安装

pip install faster-whisper pydub

使用示例

用户发送语音 → 自动识别为文字 → 根据文字内容回复

配置

  • 模型大小: tiny (可改为 base/small/medium/large,精度更高但更慢)
  • 默认语言: zh (中文)
  • ffmpeg 路径: C:\ffmpeg\bin

原理

  1. 接收语音文件 (ogg)
  2. 用 ffmpeg 转换为 wav (16000Hz, mono)
  3. 用 Faster-Whisper 识别为文字
  4. 返回识别结果并继续对话

版本历史

共 1 个版本

  • v1.0.0 当前
    2026-05-07 12:19 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

design-media

Video Frames

steipete
使用 ffmpeg 从视频中提取帧或短片。
★ 134 📥 52,903
design-media

Openai Whisper

steipete
使用 Whisper CLI 进行本地语音转文字(无需 API 密钥)
★ 331 📥 93,893
design-media

Nano Banana Pro

steipete
使用 Nano Banana Pro (Gemini 3 Pro Image) 生成或编辑图像。支持文生图、图生图及 1K/2K/4K 分辨率,适用于图像创建、修改及编辑请求,使用 --input-image 指定输入图像。
★ 430 📥 117,018