← 返回
未分类 Key

Voice Transcription

语音转文本技能 - 基于 SiliconFlow API (SenseVoiceSmall/TeleSpeechASR),支持四川话等多种方言识别
语音转文本技能 - 基于 SiliconFlow API(SenseVoiceSmall/TeleSpeechASR),支持四川话等多种方言识别
datou3456 datou3456 来源
未分类 clawhub v1.0.0 1 版本 100000 Key: 需要
★ 0
Stars
📥 328
下载
💾 0
安装
1
版本
#latest

概述

🎙️ Voice Transcription - 语音转文本

基于 SiliconFlow API 的语音转文本技能,支持普通话、粤语、英语、日语、韩语等多种语言,对四川话等方言也有良好的识别能力。

模型说明

模型特点适用场景
---------------------
FunAudioLLM/SenseVoiceSmall轻量级,支持多语言+情感识别日常对话、会议录音
TeleAI/TeleSpeechASR电信自研,方言识别更强四川话等方言语音

配置

设置环境变量 SILICONFLOW_API_KEY 或在调用时传入 api_key 参数。

export SILICONFLOW_API_KEY="your-api-key-here"

使用方法

命令行

# 转录音频文件(自动选择模型)
python3 scripts/transcribe.py audio.mp3

# 指定模型
python3 scripts/transcribe.py audio.mp3 --model TeleAI/TeleSpeechASR

# 指定 API Key
python3 scripts/transcribe.py audio.mp3 --api-key sk-xxx

# 输出到文件
python3 scripts/transcribe.py audio.mp3 --output result.txt

在对话中使用

当用户提供音频文件或提到"语音转文字"、"听一下这个录音"等时,使用此技能。

注意事项

  • 音频文件限制:时长不超过 1 小时,文件大小不超过 50MB
  • 支持格式:mp3, wav, m4a, flac, ogg, webm 等常见音频格式
  • API 免费额度:SiliconFlow 提供一定的免费调用额度

版本历史

共 1 个版本

  • v1.0.0 当前
    2026-05-07 23:31 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

design-media

Nano Banana Pro

steipete
使用 Nano Banana Pro (Gemini 3 Pro Image) 生成或编辑图像。支持文生图、图生图及 1K/2K/4K 分辨率,适用于图像创建、修改及编辑请求,使用 --input-image 指定输入图像。
★ 431 📥 117,536
design-media

Video Frames

steipete
使用 ffmpeg 从视频中提取帧或短片。
★ 136 📥 53,092
design-media

UI/UX Pro Max

xobi667
提供 UI/UX 设计智能与实现指导,帮助打造精美界面。适用于 UI 设计、UX 流程、信息架构、视觉风格、设计系统/标记、组件规格、文案/微文案、无障碍及前端 UI(HTML/CSS/JS、React、Next.js、Vue、Svelte
★ 223 📥 48,380