← 返回
未分类

video2txt-视频理解字幕提取

将本地视频或音频文件转写为 SRT 字幕文件和 TXT 纯文本文件
将本地视频或音频文件转写为 SRT 字幕文件和 TXT 纯文本文件
chentx1243 chentx1243 来源
未分类 clawhub v1.0.1 1 版本 100000 Key: 无需
★ 0
Stars
📥 419
下载
💾 11
安装
1
版本
#latest

概述

video2txt 技能

描述

将本地视频或音频文件转写为 SRT 字幕文件和 TXT 纯文本文件。

功能

  • 提取视频/音频中的语音内容
  • 生成带时间戳的 SRT 字幕文件
  • 生成纯文本 TXT 文件
  • 支持多种视频和音频格式
  • 默认使用中文识别,自动转换为简体中文

​ 使用场景:

  1. 需要读取视频内容或理解视频时

使用方法

基本命令

python video_to_text.py --input <视频/音频文件路径>

注意事项

  • 后台执行:调用此脚本时,务必使用 background: true 参数,避免弹出控制台窗口
  • 脚本运行过程中会输出详细的进度日志(每 10% 报告一次),方便追踪执行状态

示例

# 基本用法
python video_to_text.py --input "D:\videos\meeting.mp4"

# 指定输出目录
python video_to_text.py --input "D:\videos\meeting.mp4" --output-dir "D:\captions"

# 指定输出路径
python video_to_text.py --input "D:\videos\meeting.mp4" --output-path "D:\captions\meeting_result"

# 指定语言和模型
python video_to_text.py --input "D:\videos\meeting.mp4" --language zh --model-size small

参数说明

参数说明默认值
--------------------
--input输入文件路径(必需)-
--output-dir输出目录输入文件目录
--output-path输出文件基础路径-
--model-dir模型下载目录当前目录/models
--model-sizeWhisper 模型大小base
--language识别语言 (auto/zh/en)zh
--device推理设备 (cpu/cuda)cpu
--compute-type计算类型int8
--beam-size解码束大小 (1-5)2
--no-vad-filter禁用 VAD 过滤false

依赖

  • faster-whisper >= 1.1.0
  • av >= 12.0.0
  • opencc-python-reimplemented >= 0.1.7
  • ffprobe/ffmpeg
  • Whisper 模型文件(首次运行自动下载,需要发起网络请求,占用磁盘空间)

安装

  1. 确保 Python 3.11 或 3.12 环境
  2. 安装依赖:python -m pip install -r requirements.txt
  3. 首次运行会自动下载 Whisper 模型到 models 目录

输出文件

  • <输入文件名>.srt - 带时间戳的字幕文件
  • <输入文件名>.txt - 纯文本文件

注意事项

  • 首次运行需要下载 Whisper 模型,可能需要几分钟时间
  • 建议使用 Python 3.11 或 3.12,避免与 faster-whisper 的兼容性问题
  • 中文识别会自动将繁体字转换为简体字
  • 为了减少用户等待焦虑,每间隔10秒左右报告一次处理进度
  • beam-size 默认为 2,如需调整可手动指定 --beam-size 参数

版本历史

共 1 个版本

  • v1.0.1 当前
    2026-03-31 01:53 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

design-media

UI/UX Pro Max

xobi667
提供 UI/UX 设计智能与实现指导,帮助打造精美界面。适用于 UI 设计、UX 流程、信息架构、视觉风格、设计系统/标记、组件规格、文案/微文案、无障碍及前端 UI(HTML/CSS/JS、React、Next.js、Vue、Svelte
★ 216 📥 47,277
content-creation

maple-video2article

chentx1243
自动从视频生成图文并排的Markdown文章,支持本地文件或在线URL下载,完成文本提取、帧截取、时间轴匹配和撰写全流程。
★ 0 📥 501
design-media

Nano Banana Pro

steipete
使用 Nano Banana Pro (Gemini 3 Pro Image) 生成或编辑图像。支持文生图、图生图及 1K/2K/4K 分辨率,适用于图像创建、修改及编辑请求,使用 --input-image 指定输入图像。
★ 429 📥 116,747