← 返回
未分类

openclaw-whisper-asr

本地 Whisper 语音识别配置。自动将飞书/Telegram 等渠道的语音消息转成文字。 适用于需要离线、低延迟语音转文字的场景。
本地 Whisper 语音识别配置。自动将飞书/Telegram 等渠道的语音消息转成文字。 适用于需要离线、低延迟语音转文字的场景。
279458179 279458179 来源
未分类 clawhub v1.0.0 1 版本 100000 Key: 无需
★ 0
Stars
📥 571
下载
💾 8
安装
1
版本
#latest

概述

本地 Whisper 语音识别配置 (whisper-asr)

概述

通过 whisper.cpp 在服务器上配置本地语音识别,用于:

  • 识别用户发来的语音消息
  • 离线运行,无需 API
  • 支持中文等多种语言

前置要求

  • Linux 服务器(已测试 Ubuntu/Debian)
  • ffmpeg 已安装
  • ~150MB 磁盘空间(base 模型)

安装步骤

1. 安装 ffmpeg

sudo apt-get update
sudo apt-get install -y ffmpeg

2. 克隆 whisper.cpp

cd /home/brew/.openclaw/workspace
git clone https://github.com/ggml-org/whisper.cpp.git

3. 下载中文模型

cd whisper.cpp
sh ./models/download-ggml-model.sh base

模型选择建议:

模型大小内存推荐场景
---------------------------
tiny75 MB~273 MB快速测试
base142 MB~388 MB平衡推荐
small466 MB~852 MB更高精度

4. 编译

cd whisper.cpp
cmake -B build
cmake --build build -j --config Release

使用方式

1. 转换音频格式

飞书语音通常是 ogg 格式,需要转换为 whisper 需要的格式:

ffmpeg -i input.ogg -ar 16000 -ac 1 -c:a pcm_s16le output.wav

2. 语音转文字

./build/bin/whisper-cli \
  -m models/ggml-base.bin \
  -f output.wav \
  --language zh \
  --no-timestamps

常用参数:

  • -m: 模型路径
  • -f: 输入音频文件
  • --language zh: 指定中文
  • --no-timestamps: 不输出时间戳
  • -t 4: 线程数(默认自动)

3. 完整示例(单命令)

ffmpeg -i input.ogg -ar 16000 -ac 1 -c:a pcm_s16le /tmp/audio.wav && \
./build/bin/whisper-cli -m models/ggml-base.bin -f /tmp/audio.wav --language zh --no-timestamps

路径速查

项目路径
------------
whisper.cpp 目录/home/brew/.openclaw/workspace/whisper.cpp
可执行文件/home/brew/.openclaw/workspace/whisper.cpp/build/bin/whisper-cli
模型目录/home/brew/.openclaw/workspace/whisper.cpp/models/
base 模型/home/brew/.openclaw/workspace/whisper.cpp/models/ggml-base.bin

常见问题

Q: 识别结果不准确?

A: 尝试使用更大的模型(small/medium),或在安静环境下录音。

Q: 识别速度慢?

A: 增加线程数:./whisper-cli -t 8 ...

Q: 支持其他语言?

A: 不指定 --language 会自动检测。也可指定 --language en 等。


进阶:量化模型(节省资源)

# 量化(减少模型大小)
./build/bin/quantize models/ggml-base.bin models/ggml-base-q5.bin q5_0

# 使用量化模型
./build/bin/whisper-cli -m models/ggml-base-q5.bin -f audio.wav --language zh

_本技能参考 whisper.cpp 官方文档_

版本历史

共 1 个版本

  • v1.0.0 当前
    2026-03-30 12:07 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

ai-agent

self-improving agent

pskoett
捕获经验教训、错误及修正内容,以实现持续改进。适用于以下场景:(1)命令或操作意外失败;(2)用户纠正Claude(如“不,那不对……”“实际上……”);(3)用户请求的功能不存在;(4)外部API或工具出现故障;(5)Claude发现自身
★ 4,124 📥 842,914
ai-agent

Self-Improving + Proactive Agent

ivangdavila
自我反思+自我批评+自我学习+自组织记忆。智能体评估自身工作、发现错误并持续改进。
★ 1,406 📥 324,289
design-media

grok_image_generate

279458179
通过 Grok Imagine 生成用户描述的图片,并指导保存及发送至飞书的完整流程。
★ 0 📥 2,344