← 返回
未分类

Speech Recognition

Convert QQ voice messages in AMR/SILK format to text using pysilk decoding and faster-whisper transcription.
使用 pysilk 解码将QQ 语音消息(AMR/SILK 格式)转换为文本,并采用 faster‑whisper 进行语音转写。
yvanboyang yvanboyang 来源
未分类 clawhub v1.0.0 1 版本 100000 Key: 无需
★ 0
Stars
📥 287
下载
💾 0
安装
1
版本
#latest

概述

Speech Recognition 语音识别

将 AMR/SILK 格式的语音转换为文字。

环境要求

  • Python 虚拟环境:source /opt/conda/bin/activate py314
  • 依赖包:pysilk, faster-whisper
  • 模型路径:/opt/workspace/yby_workspace/whisper-model

使用方式

from skills.speech_recognition import transcribe_audio

text = transcribe_audio("/path/to/audio.amr")
print(text)

实现逻辑

  1. 读取 AMR/SILK 格式文件
  2. 使用 pysilk 解码为 PCM 数据
  3. 保存为 WAV 文件
  4. 使用 faster-whisper 转写为文字
  5. 返回识别结果

支持格式

  • QQ 语音:.amr (SILK_V3 编码)
  • 标准 AMR:amr, amrnb, amrwb

依赖安装

source /opt/conda/bin/activate py314
pip install pysilk faster-whisper

模型下载

需要从 HuggingFace 下载 faster-whisper 模型:

python3 -m huggingface_hub snapshot-download \
  --repo-type model \
  --repo-id Systran/faster-whisper-base \
  --local-dir /opt/workspace/yby_workspace/whisper-model

需要的文件:

  • model.bin
  • config.json
  • tokenizer.json
  • vocabulary.txt

版本历史

共 1 个版本

  • v1.0.0 当前
    2026-05-08 03:36 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

design-media

UI/UX Pro Max

xobi667
提供 UI/UX 设计智能与实现指导,帮助打造精美界面。适用于 UI 设计、UX 流程、信息架构、视觉风格、设计系统/标记、组件规格、文案/微文案、无障碍及前端 UI(HTML/CSS/JS、React、Next.js、Vue、Svelte
★ 227 📥 48,783
design-media

Openai Whisper

steipete
使用 Whisper CLI 进行本地语音转文字(无需 API 密钥)
★ 335 📥 94,636
design-media

Nano Banana Pro

steipete
使用 Nano Banana Pro (Gemini 3 Pro Image) 生成或编辑图像。支持文生图、图生图及 1K/2K/4K 分辨率,适用于图像创建、修改及编辑请求,使用 --input-image 指定输入图像。
★ 435 📥 117,827