← 返回
未分类

audio-enhancement-engine

当用户想要**音频增强**、**提升音质**、**修复录音**、**降噪**、**语音修复**、**高保真音频**、**48kHz超分辨率**、**清理会议录音**、**音乐音质提升**、**批量处理音频**时自动触发。 集成 **VoiceFixer**(通用语音修复)与 **AudioSR**(高保真音频超级...
在用户需要音频增强、降噪、语音修复、高保真音频(48kHz 超分辨率)或批量处理时自动触发。集成 VoiceFixer(通用语音修复)与AudioSR(高保真音频超分辨率)模块。
wangminrui2022 wangminrui2022 来源
未分类 clawhub v1.0.3 1 版本 100000 Key: 无需
★ 0
Stars
📥 434
下载
💾 1
安装
1
版本
#latest

概述

Audio Enhancement Skill

功能:本地音频增强与修复统一工具,集成 VoiceFixer(语音降噪/修复)和 AudioSR(高保真超级分辨率)。支持单文件与目录批量处理,自动适配最合适的增强模式,输出清晰、高质量的 48kHz WAV 文件。

触发时机(Triggers)

  • 用户提供音频文件(.wav、.mp3、.flac、.m4a、.ogg 等)或音频文件夹路径,并表达增强音质、修复、降噪、高保真等意图。
  • 用户说“音频增强”“修复录音”“降噪”“提升音质”“高保真”“48kHz”等关键词。
  • 支持单个文件处理或整个文件夹批量处理(支持递归子目录)。

支持的两种增强模式

  1. VoiceFixer 通用语音修复(默认模式)
    • 擅长语音降噪、提升清晰度、修复轻微失真。
    • 推荐用于:会议录音、访谈、播客、语音笔记、老旧录音。
  1. AudioSR 高保真音频超级分辨率(启用 --hifi 时)
    • 将音频提升至 48kHz,显著增加高频细节和整体保真度。
    • 推荐用于:音乐、演唱、人声、需要高音质的场景。

参数提取指南

当决定调用此技能时,请从用户消息中准确提取以下参数:

  1. <输入路径> (必填): 用户提供的音频文件路径或文件夹路径(支持相对/绝对路径)。
  2. <输出路径> (选填): 用户指定的输出文件或目录路径。若未指定,默认在输入同级目录自动添加 _enhanced 后缀。
  3. <模式选择> (选填):
    • 默认使用 VoiceFixer。
    • 若用户提到“高保真”“音乐”“48kHz”“超分辨率”等,自动添加 --hifi 并使用 AudioSR。
  4. VoiceFixer 专用参数(默认模式):
    • --mode:0/1/2(推荐 1,默认 1)
    • --cuda:是否使用 GPU
    • -r, --recursive:是否递归子目录
  5. AudioSR 专用参数--hifi 模式):
    • --model_namebasicspeech(人声推荐 speech)
    • --ddim_steps:扩散步数(默认 50,建议 50-100)
    • --guidance_scale:引导尺度(默认 3.5)
    • --seed:随机种子(默认 42)
    • --devicecudacpu

执行步骤

  1. 解析路径:识别用户提供的音频文件或文件夹路径。
  2. 模式判断:根据用户意图判断使用 VoiceFixer(默认)还是 AudioSR(含 --hifi)。
  3. 默认目标:若未指定输出路径,默认在输入目录生成带 _enhanced_48k(AudioSR)或 _enhanced(VoiceFixer)后缀的文件。
  4. 调用命令:使用以下兼容性命令启动脚本(优先 python3,失败则 python)。脚本会自动检查环境、初始化模型并处理。

```bash

(python3 scripts/enhancer.py -i "<输入路径>" [-o "<输出目录>"] [-m <0|1|2>] [--cuda] [-r] [--hifi] [--model_name ] [--ddim_steps <数值>] [--guidance_scale <数值>] [--seed <数值>] [--device ]) || (python scripts/enhancer.py -i "<输入路径>" [-o "<输出目录>"] [-m <0|1|2>] [--cuda] [-r] [--hifi] [--model_name ] [--ddim_steps <数值>] [--guidance_scale <数值>] [--seed <数值>] [--device ])

版本历史

共 1 个版本

  • v1.0.3 当前
    2026-05-03 08:08 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

dev-programming

melo-tts-metadata-creator

wangminrui2022
在用户需要为MeloTTS 训练或微调生成 metadata.list 时自动触发,专注处理 .wav 音频及对应 .txt 转录,自动生成符合最新官方标准的 metadata.list(格式:音频路径|speaker|语言|文本),支持单
★ 0 📥 626
design-media

Openai Whisper

steipete
使用 Whisper CLI 进行本地语音转文字(无需 API 密钥)
★ 330 📥 93,721
design-media

UI/UX Pro Max

xobi667
提供 UI/UX 设计智能与实现指导,帮助打造精美界面。适用于 UI 设计、UX 流程、信息架构、视觉风格、设计系统/标记、组件规格、文案/微文案、无障碍及前端 UI(HTML/CSS/JS、React、Next.js、Vue、Svelte
★ 217 📥 47,468