← 返回
未分类
Audio Recognition
音频语音识别服务(Speech-to-Text)。当用户上传音频文件,需要将语音内容转换为文字,或需要识别音频中的特定信息(如关键词、歌曲名)时触发。 适用于:(1) 会议录音转写 (2) 音频内容提取 (3) 语音指令识别 (4) 音视频字幕生成
音频语音识别服务(Speech-to-Text)。当用户上传音频文件,需将语音转为文字或识别特定信息(如关键词、歌曲名)时触发。适用于:会议录音转写、音频内容提取、语音指令识别、音视频字幕生成。
未分类
clawhub
v1.0.0 1 版本 100000 Key: 无需
#latest
概述
音频语音识别 (Audio Recognition)
将音频中的语音准确转写为文字,并能区分不同说话人。
核心能力
- 语音转文字 (Speech-to-Text)
- 说话人分离 (Diarization)
- 标点与断句优化
- 支持多语言识别
工作流程
1. 音频预处理
- 降噪处理
- 格式转换 (统一为16kHz/16bit PCM或MP3)
- 音量标准化
2. 声学特征提取
- 提取MFCC、FBANK等声学特征
- 用于后续ASR模型输入
3. ASR语音识别
- 使用ASR模型进行语音识别
- 生成文字初稿
- 支持模型:Whisper、WeNet、Paraformer等
4. 后处理
5. 输出结果
质量目标
- 准确率:95%以上(标准普通话录音)
- 实时性:支持实时和离线两种模式
限制说明
- 噪音限制:背景噪音过大时识别效果下降
- 口音限制:重度方言/口音可能影响准确率
- 隐私保护:用户上传的音频仅用于本次识别,不得用于模型训练或其他用途
- 语义理解:仅负责语音转文字,不理解文本语义内容
参考服务
- 讯飞听见
- Google Speech-to-Text
- 阿里云语音识别
- 腾讯云语音识别
适用场景
- 会议纪要自动生成
- 音频/视频字幕制作
- 语音内容检索
- 录音文件整理
版本历史
共 1 个版本
-
v1.0.0
当前
2026-05-03 10:09 安全 安全
安全检测
腾讯云安全 (Sanbu)
安全,无风险
查看报告
🔗 相关推荐
zzhimin
跨境电商店铺健康度自动巡检 Skill。支持多店铺配置,定时检查站点可用性、响应时间、SSL证书健康度、关键页面404/内容缺失,异常时自动推送到飞书。
★ 0
📥 341
zzhimin
从电商评论中挖掘产品机会,自动抓取1‑3星评论并使用Map‑Reduce提取痛点,生成产品洞察报告。用户发送亚马逊商品链接时触发该技能。
★ 0
📥 362
zzhimin
跨境电商SEO优化与Listing文案生成专家,擅长将中式英语或基础卖点转化为本土化、高转化率且符合SEO规范的文案。
★ 0
📥 379