← 返回
未分类 Key

Video Dubbing

🎯 **唯一使用VoxCPM的中文配音技能** - 外语视频一键中文配音,支持硬字幕检测、断点续传、智能BGM。触发场景:(1) 用户需要给外语视频配音 (2) 视频翻译需求 (3) 多语言内容本地化
唯一使用VoxCPM的中文配音技能,外语视频一键中文配音,支持硬字幕检测、断点续传、智能BGM。适用场景:外语视频配音、视频翻译、多语言本地化。
newaiguy newaiguy 来源
未分类 clawhub v1.2.0 1 版本 100000 Key: 需要
★ 0
Stars
📥 453
下载
💾 0
安装
1
版本
#latest

概述

🎬 VoxCPM中文视频配音

> 唯一使用VoxCPM开源模型的中文配音技能

>

> 生产环境验证 ✅ | 断点续传 ✅ | 智能BGM ✅

🌟 核心卖点

特性说明
------------
🎯 VoxCPM独家唯一集成VoxCPM开源TTS模型的中文配音技能
生产验证已在B站成功发布4个视频
🔄 断点续传中断后可继续,无需重新生成
🔍 硬字幕检测AI自动检测并覆盖原字幕
🎵 智能BGM自动循环、交叉淡入淡出

📋 完整流程

1. Whisper转写    → medium模型转写 + 时间戳
2. AI翻译        → 腾讯混元MT翻译模型
3. 分组TTS       → VoxCPM配音(按组生成,保持连贯)
4. 音频匹配      → 智能拉伸/加静音
5. 硬字幕检测    → AI自动检测是否需要遮盖
6. 字幕生成      → 中文字幕(自动换行)
7. 视频合并      → GPU加速编码

🚀 快速开始

1. 安装依赖

# Python依赖
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
pip install openai-whisper soundfile scipy librosa requests

# VoxCPM(从官方获取)
git clone https://github.com/modelscope/VoxCPM.git

2. 配置

复制配置模板:

cp config.example.json config.json

编辑 config.json

{
  "work_dir": "./workspace",
  "voxcpm_dir": "./VoxCPM",
  "ffmpeg_path": "ffmpeg",
  "translate": {
    "api_url": "https://api.siliconflow.cn/v1/chat/completions",
    "api_key": "YOUR_API_KEY",
    "model": "tencent/Hunyuan-MT-7B"
  },
  "vision": {
    "api_url": "https://api.siliconflow.cn/v1/chat/completions",
    "model": "Qwen/Qwen2.5-VL-72B-Instruct"
  },
  "tts": {
    "reference_audio": "./reference_audio/speaker.wav",
    "reference_text": "参考音频对应的文本"
  }
}

> 注意: 所有配置项均可通过环境变量覆盖,优先级:环境变量 > config.json > 默认值


### 3. 运行

python scripts/dubbing.py your_video.mp4


输出:
- `workspace/output/your_video_dubbed.mp4` - 配音视频
- `workspace/output/your_video.srt` - 字幕文件

## ⚙️ 参数说明

### Whisper参数

| 参数 | 默认值 | 说明 |
|------|--------|------|
| `whisper.model` | medium | Whisper模型大小 |
| `whisper.language` | en | 源语言 |

### TTS参数

| 参数 | 默认值 | 说明 |
|------|--------|------|
| `tts.max_group_duration` | 15.0 | 每组最大时长(秒) |
| `tts.inference_timesteps` | 10 | 推理步数 |
| `tts.cfg_value` | 2.0 | CFG值 |

### 字幕参数

| 参数 | 默认值 | 说明 |
|------|--------|------|
| `subtitle.fontsize` | 16 | 字体大小 |
| `subtitle.fontname` | SimHei | 字体名称 |
| `subtitle.outline` | 2 | 描边宽度 |

## 🎵 BGM添加

python scripts/add_bgm.py <视频> [BGM文件] [输出文件]


特性:
- BGM自动循环(交叉淡入淡出3秒)
- 音量控制(默认12%)
- 自动淡入淡出

## 🔧 高级用法

### 测试模式

只处理前30秒:

python scripts/dubbing.py video.mp4 --test 30


### 指定输出名

python scripts/dubbing.py video.mp4 --output my_video


### 自定义配置

python scripts/dubbing.py video.mp4 --config my_config.json


## 📁 文件结构

video-dubbing/

├── SKILL.md # 本文档

├── config.example.json # 配置模板

├── scripts/

│ ├── dubbing.py # 主流程脚本

│ ├── add_bgm.py # BGM添加

│ └── upload_bilibili.py # B站上传

└── reference_audio/ # TTS参考音频

└── speaker.wav


## 🔑 环境变量

| 变量 | 说明 | 默认值 |
|------|------|--------|
| `TRANSLATE_API_KEY` | 翻译API密钥(必需) | - |
| `VOXCPM_DIR` | VoxCPM目录 | `./VoxCPM` |
| `WORK_DIR` | 工作目录 | `./workspace` |
| `REFERENCE_AUDIO` | TTS参考音频路径 | `./reference_audio/speaker.wav` |
| `REFERENCE_TEXT` | 参考音频对应文本 | - |
| `TRANSLATE_API_URL` | 翻译API端点 | SiliconFlow |
| `TRANSLATE_MODEL` | 翻译模型 | `tencent/Hunyuan-MT-7B` |
| `VISION_API_URL` | 硬字幕检测API端点 | SiliconFlow |
| `VISION_MODEL` | Vision模型 | `Qwen/Qwen2.5-VL-72B-Instruct` |
| `WHISPER_MODEL` | Whisper模型 | `medium` |
| `WHISPER_LANGUAGE` | 源语言 | `en` |
| `FFMPEG_PATH` | ffmpeg路径 | `ffmpeg` |

## 📊 音频匹配质量

| ratio范围 | 方法 | 质量 |
|-----------|------|------|
| < 0.85 | 加静音 | ✅ 无损 |
| 0.85-1.15 | resample | ✅ 轻微调整 |
| > 1.15 | librosa加速 | ⚠️ 轻微失真 |

**实测:60%+组无损音质**

## ⚠️ 注意事项

### AV1编码视频

AV1编码视频需要重新编码:

使用GPU编码

-c:v h264_nvenc

或CPU编码

-c:v libx264


### VoxCPM模型

需要从ModelScope获取VoxCPM模型:

下载模型到指定目录

modelscope download --model modelscope/VoxCPM --local_dir ./VoxCPM


## 📜 许可证

MIT License

## 🙏 致谢

- [VoxCPM](https://github.com/modelscope/VoxCPM) - 高质量中文TTS
- [OpenAI Whisper](https://github.com/openai/whisper) - 语音识别
- [Hunyuan-MT](https://huggingface.co/tencent/Hunyuan-MT-7B) - 翻译模型

---

**🎯 选择VoxCPM中文配音的理由:**
1. 开源免费,无商业限制
2. 中文效果最佳,自然流畅
3. 支持声音克隆(参考音频)
4. 本地运行,数据安全

版本历史

共 1 个版本

  • v1.2.0 当前
    2026-05-03 08:23 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

data-analysis

OpenClaw大众点评

newaiguy
查询大众点评餐厅信息。使用场景:(1) 用户要查询某家餐厅的评分、人均消费、地址 (2) 用户要搜索特定菜系或区域的餐厅推荐 (3) 用户要获取附近美食推荐。登录账号:一定S。重要:搜索时URL需包含城市ID(如hangzhou页面),账号
★ 0 📥 585
design-media

UI/UX Pro Max

xobi667
提供 UI/UX 设计智能与实现指导,帮助打造精美界面。适用于 UI 设计、UX 流程、信息架构、视觉风格、设计系统/标记、组件规格、文案/微文案、无障碍及前端 UI(HTML/CSS/JS、React、Next.js、Vue、Svelte
★ 218 📥 47,855
design-media

Nano Banana Pro

steipete
使用 Nano Banana Pro (Gemini 3 Pro Image) 生成或编辑图像。支持文生图、图生图及 1K/2K/4K 分辨率,适用于图像创建、修改及编辑请求,使用 --input-image 指定输入图像。
★ 430 📥 117,106