← 返回
未分类 中文

Whisper GPU Audio Transcriber

Convert audio to SRT subtitles using OpenAI Whisper with automatic GPU acceleration for Intel XPU / NVIDIA CUDA / AMD ROCm / Apple Metal. Ideal for content c...
利用OpenAI Whisper将音频转换为SRT字幕,支持Intel XPU、NVIDIA CUDA、AMD ROCm及Apple Metal的自动GPU加速,适用于内容创作者。
allanmeng allanmeng 来源
未分类 clawhub v1.0.3 1 版本 100000 Key: 无需
★ 0
Stars
📥 406
下载
💾 8
安装
1
版本
#audio#cuda#gpu#latest#metal#rocm#subtitle#transcription#whisper#xpu

概述

🎙️ Whisper GPU Audio Transcriber

Convert audio files to SRT subtitles using local Whisper models — completely free, offline, and GPU accelerated.


Use Cases

  • Content creation, free alternative to paid subtitle features (e.g., CapCut/剪映)
  • Meeting recording to text
  • Podcast/course subtitles

Supported GPU Acceleration

| Device | Acceleration | FP16 |

|--------|-------------|------|

| Intel Arc Series | XPU | ❌ Auto disabled |

| NVIDIA GPUs | CUDA | ✅ Auto enabled |

| AMD GPUs | ROCm | ✅ Auto enabled |

| Apple M Series | Metal | ✅ Auto enabled |

| No GPU | CPU | ❌ Auto disabled |


Usage

Basic Usage

Place the audio file in your current working directory and tell the AI:

Convert xxx.mp3 to SRT subtitles

Or specify the full path directly:

Convert /path/to/audio.mp3 to SRT subtitles

Advanced Usage

Convert xxx.mp3 to English subtitles using large-v3-turbo model

Convert xxx.mp3 to subtitles, language is Japanese

Execution

AI will execute the scripts/transcribe.py script, which will:

  1. Automatically detect available GPU and select optimal acceleration
  2. Load Whisper model (default: turbo)
  3. Transcribe audio to SRT format
  4. Save output in the same directory as the audio

Requirements

  • Python 3.8+
  • PyTorch (version matching your hardware)
  • Intel GPU: pip install torch==2.10.0+xpu
  • NVIDIA GPU: pip install torch --index-url https://download.pytorch.org/whl/cu121
  • CPU: pip install torch
  • openai-whisper: Automatically installed via pip install openai-whisper

Notes

  • First run will auto-download the model file (turbo ~1.5GB)
  • Models cache in ~/.cache/whisper by default, use symlink/Junction to redirect to another disk
  • Intel XPU requires Intel Arc GPU + matching PyTorch version

> Tip for China users: If model download fails, manually download from mirror sites and place in ~/.cache/whisper/


Supported Models

| Model | Size | Speed | Accuracy |

|-------|------|-------|----------|

| tiny | 39M | Fastest | Low |

| base | 74M | Fast | Medium |

| small | 244M | Medium | Medium |

| medium | 769M | Slow | High |

| turbo | 809M | Medium | High ✅ Recommended |

| large-v3 | 1550M | Slowest | Highest |

| large-v3-turbo | 1550M | Slow | Highest |



🎙️ Whisper GPU 音频转字幕

使用本地 Whisper 模型将音频文件转录为 SRT 字幕,完全免费,无需联网,支持 GPU 加速。


适用场景

  • 自媒体视频制作,替代剪映付费字幕功能
  • 会议录音转文字
  • 播客/课程内容转字幕

支持的 GPU 加速

| 设备 | 加速方式 | FP16 |

|------|---------|------|

| Intel Arc 系列 | XPU | ❌ 自动禁用 |

| NVIDIA 显卡 | CUDA | ✅ 自动启用 |

| AMD 显卡 | ROCm | ✅ 自动启用 |

| Apple M 系列 | Metal | ✅ 自动启用 |

| 无独显 | CPU | ❌ 自动禁用 |


使用方法

基础用法

将音频文件放入当前工作目录,然后告诉 AI:

把 xxx.mp3 转成 SRT 字幕文件

或者直接指定路径:

把 /path/to/audio.mp3 转成 SRT 字幕

高级用法

把 xxx.mp3 用 large-v3-turbo 模型转成英文字幕

把 xxx.mp3 转成字幕,语言是日语

执行方式

AI 会调用 scripts/transcribe.py 脚本执行转录,脚本会:

  1. 自动检测可用 GPU 设备并选择最优加速方式
  2. 加载 Whisper 模型(默认 turbo
  3. 将音频转录为 SRT 格式字幕
  4. 输出文件保存在与音频同目录

环境要求

  • Python 3.8+
  • PyTorch(版本需匹配硬件)
  • Intel GPU:pip install torch==2.10.0+xpu
  • NVIDIA GPU:pip install torch --index-url https://download.pytorch.org/whl/cu121
  • CPU:pip install torch
  • openai-whisper:由 ClawHub 通过 pip install openai-whisper 自动安装

注意事项

  • 首次运行会自动下载模型文件(turbo 约 1.5GB)
  • 模型默认缓存在 ~/.cache/whisper,可用软链接/Junction 指向其他磁盘
  • Intel XPU 需要 Intel Arc 独显 + 对应版本 PyTorch

> 国内用户提示:首次运行会自动下载模型,如下载失败可手动从镜像站下载后放入 ~/.cache/whisper/


支持的模型

| 模型 | 大小 | 速度 | 准确度 |

|------|------|------|--------|

| tiny | 39M | 最快 | 低 |

| base | 74M | 快 | 中 |

| small | 244M | 中 | 中 |

| medium | 769M | 慢 | 高 |

| turbo | 809M | 中 | 高 ✅ 推荐 |

| large-v3 | 1550M | 最慢 | 最高 |

| large-v3-turbo | 1550M | 慢 | 最高 |

版本历史

共 1 个版本

  • v1.0.3 当前
    2026-03-31 05:10 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

design-media

Openai Whisper

steipete
使用 Whisper CLI 进行本地语音转文字(无需 API 密钥)
★ 332 📥 94,129
design-media

Video Frames

steipete
使用 ffmpeg 从视频中提取帧或短片。
★ 134 📥 52,991
design-media

UI/UX Pro Max

xobi667
提供 UI/UX 设计智能与实现指导,帮助打造精美界面。适用于 UI 设计、UX 流程、信息架构、视觉风格、设计系统/标记、组件规格、文案/微文案、无障碍及前端 UI(HTML/CSS/JS、React、Next.js、Vue、Svelte
★ 219 📥 48,010