← 返回
未分类

mimo-asr

小米 MiMo-V2.5-ASR 语音识别技能。通过 Gradio API 调用,将音频转录为文字,支持中英文自动检测和显式指定。无需本地模型,无需 API Key。当用户请求语音转文字、音频转录、提取对话内容时使用。
小米 MiMo-V2.5-ASR 语音识别技能,调用 Gradio API 将音频转写为文字,支持中英文自动检测及手动指定,无需本地模型和 API Key,适用于语音转文字、音频转录、提取对话内容。
xcchenx345
未分类 clawhub v1.0.0 1 版本 100000 Key: 无需
★ 0
Stars
📥 213
下载
💾 0
安装
1
版本
#latest

概述

MiMo-V2.5-ASR 语音识别 / Speech Recognition (中文/English)

> 通过小米官方 Gradio 免费 API 调用语音识别模型,无需本地模型、无需 API Key

> Transcribe audio via Xiaomi's free public Gradio API — no local model, no API key needed.

为什么选这个?/ Why This One?

比起安装 4GB 本地模型 + mimo-audio 包,这个版本:

  • ✅ 零依赖(只需要 requests
  • ✅ 零配置(不需要下载任何东西)
  • ✅ 免费无限调用
  • ✅ 支持中文/英文/自动检测
  • ❌ 需要网络(音频传云端处理)

快速开始 / Quick Start

# 安装唯一依赖 / Install the only dependency
pip install requests

# 自动语言检测 / Auto language detection
python scripts/mimo_asr_api.py recording.wav

# 指定中文 / Specify Chinese
python scripts/mimo_asr_api.py speech.mp3 --language zh

# 指定英文 / Specify English
python scripts/mimo_asr_api.py lecture.wav --language en

# 输出到文件 / Output to file
python scripts/mimo_asr_api.py meeting.wav --output transcript.txt

参数 / Parameters

参数说明默认值
---------
audio音频文件路径(wav/mp3/m4a 等)必填
--language语言:auto(自动)、zh(中文)、en(英文)auto
--output输出文本文件路径(可选)打印到终端

示例 / Examples

# 🪟 Windows
python scripts/mimo_asr_api.py C:\Users\abc15\Desktop\录音.wav --language zh --output output.txt

# 🍎 macOS / 🐧 Linux
python scripts/mimo_asr_api.py ~/Desktop/meeting.mp3 --language auto

API 内部原理 / How It Works

该脚本通过 Gradio API 调用 HuggingFace 上的小米官方空间:

The script calls Xiaomi's official HuggingFace space via the Gradio API:

https://xiaomimimo-mimo-v2-5-asr.hf.space

步骤 / Steps:

  1. 上传音频/gradio_api/upload
  2. 启动推理/gradio_api/call/infer(传音频 URL + 语言标签)
  3. 轮询结果 → 获取转录文本

支持的文件格式 / Supported Formats

WAV、MP3、M4A、FLAC、OGG 等主流音频格式。

WAV, MP3, M4A, FLAC, OGG and common audio formats.

注意事项 / Notes

  • 大文件处理时间较长 / Large files take longer
  • 需网络连接 / Internet connection required
  • 不需要 MIMO API Key / No MIMO_API_KEY needed
  • 免费使用 / Free to use

版本历史

共 1 个版本

  • v1.0.0 当前
    2026-05-23 23:47 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

mimo-tts-wav

xcchenx345
MiMo V2.5 TTS 语音合成模型,将文字转为语音,支持预置音色、音色设计、音色克隆,提供自然语言控制、导演模式,可通过语气、情绪、方言标签调节风格,预置音色支持唱歌。
★ 0 📥 382

mijia-py-api

xcchenx345
米家智能家居设备控制技能包。通过 mijiaAPI 驱动,支持查询设备状态、控制设备属性、运行场景等。当用户请求控制智能家居设备、查询温湿度/电量/开关状态时使用。 ·本技能是从Github但未发布到clawhub的项目转载而来的,如果你是
★ 0 📥 251

mimo-omni

xcchenx345
使用小米MiMo多模态模型分析图片、视频和音频,支持图片描述、OCR、物体检测、场景理解、视频分析及音频转录/理解。
★ 0 📥 276