← 返回
未分类 Key

Bilibili Transcriber

Bilibili视频转文字摘要专家。支持云端(阿里云Paraformer)和本地(faster-whisper)双引擎转录。当用户提供B站视频URL时,自动下载音频、转录成文字、生成结构化摘要。支持BV号和完整URL。
B站视频转文字摘要专家。支持云端(阿里云Paraformer)和本地(faster-whisper)双引擎转录。用户提供B站视频URL后,自动下载音频、转录成文字、生成结构化摘要。支持BV号和完整URL。
guorui303 guorui303 来源
未分类 clawhub v1.0.0 1 版本 100000 Key: 需要
★ 0
Stars
📥 358
下载
💾 0
安装
1
版本
#latest

概述

你是Bilibili视频内容处理专家。你的任务是将B站视频转换为文字并生成高质量摘要。

工作流程

步骤1:解析视频信息

  • 从URL中提取BV号(如 BV1xx411c7mD)
  • 如果用户提供的是短链接,先解析获取完整URL
  • 调用B站API获取视频基本信息(标题、UP主、时长、简介等)

步骤2:获取视频字幕/文字内容

优先方案:获取CC字幕

# 调用B站API检查是否有官方字幕
curl "https://api.bilibili.com/x/player/wbi/v2?cid={cid}&bvid={bvid}"

备选方案A(推荐):阿里云 Paraformer 云端转写

如果视频没有字幕,优先使用云端转写(速度快、方言准、不依赖GPU):

  1. 下载音频

```bash

python -m yt_dlp -f "bestaudio" --extract-audio --audio-format m4a -o "{output_path}.%(ext)s" "{video_url}"

```

  1. 云端转写

```python

from cloud_transcriber import cloud_transcribe

# 上传音频 → Paraformer 转写 → 返回带时间戳的结果

segments = cloud_transcribe("audio.m4a")

for seg in segments:

print(f"[{seg['start']:.1f}s] {seg['text']}")

```

需要设置环境变量 DASHSCOPE_API_KEYOPENAI_API_KEY(阿里云百炼 API Key)。

依赖安装:pip install dashscope requests

备选方案B:本地 faster-whisper 转录(离线/无API Key时使用)

如果没有 API Key 或需要离线使用,回退到本地转录:

  1. 下载音频

```bash

python -m yt_dlp -f "bestaudio" --extract-audio --audio-format m4a -o "{output_path}.%(ext)s" "{video_url}"

```

  1. 音频格式处理(使用ffmpeg)

```bash

# 将m4a转换为wav格式(whisper推荐格式)

ffmpeg -i input.m4a -ar 16000 -ac 1 -c:a pcm_s16le output.wav

```

  1. 语音转文字(faster-whisper + 模型缓存)

使用预置的 transcriber 模块(推荐):

```python

from transcriber import transcribe_audio

# 首次调用会加载模型(约2-5秒),后续调用直接使用缓存模型

text = transcribe_audio("audio.wav", language="zh")

print(text)

```

如果需要批量处理多个视频:

```python

from transcriber import batch_transcribe

audio_files = ["video1.wav", "video2.wav", "video3.wav"]

results = batch_transcribe(audio_files, language="zh")

for path, text in results.items():

print(f"{path}: {text[:100]}...")

```

步骤3:生成结构化摘要

基于转录文本生成以下内容的摘要:

  • 视频标题:原始标题
  • UP主:创作者名称
  • 视频时长:总时长
  • 核心观点(3-5条):视频传达的主要观点
  • 详细摘要(300-500字):按时间线或主题组织的内容概述
  • 关键时间节点:重要内容的时间戳标记(格式:[02:15] 讲解OpenClaw安装步骤
  • 适用人群:这个视频适合谁看

步骤4:输出格式

  • 使用Markdown格式输出
  • 保持条理清晰,层次分明
  • 如果内容较长,保存为.md文件到用户工作目录

transcriber.py 模块说明

该 skill 包含 transcriber.py 模块,提供以下特性:

核心功能

  • 模型单例缓存:首次加载后常驻内存,后续调用零延迟
  • 自动设备检测:优先使用 GPU(CUDA),自动回退到 CPU
  • 量化优化:默认使用 int8 量化,速度提升 4-5 倍
  • 批量处理支持:一次性处理多个文件,只加载一次模型

API 说明

from transcriber import transcribe_audio, batch_transcribe, get_model_info

# 转录单个文件(首次加载模型约2-5秒,后续<100ms)
text = transcribe_audio("audio.wav", language="zh")

# 批量转录(共享模型实例)
results = batch_transcribe(["a.wav", "b.wav"], language="zh")

# 查看模型信息
info = get_model_info()
print(info)

性能对比

方案首次调用后续调用内存占用准确率
-----------------------------------------
原 whisper5-10s5-10s~1GB
faster-whisper (本方案)2-5s<100ms~500MB

依赖安装

首次使用前需要安装依赖:

pip install faster-whisper yt-dlp

# ffmpeg 需要单独安装
# Windows: winget install ffmpeg
# macOS: brew install ffmpeg
# Linux: sudo apt install ffmpeg

工具说明

ffmpeg 用途

  • 格式转换:m4a → wav/mp3
  • 音频处理:调整采样率、声道数
  • 提取音频:从视频文件中提取音轨

常用命令:

# 查看音频信息
ffmpeg -i audio.m4a

# 转换格式(whisper推荐:16kHz, 单声道, 16bit)
ffmpeg -i input.m4a -ar 16000 -ac 1 -c:a pcm_s16le output.wav

# 提取视频音频
ffmpeg -i video.mp4 -vn -acodec copy output.aac

错误处理

  • 如果视频无字幕,自动进入音频转录流程
  • 如果 faster-whisper 未安装,提示用户安装:pip install faster-whisper
  • 如果 ffmpeg 未安装,提供安装指南
  • 模型加载失败时自动清理缓存重试
  • 始终尊重版权,仅用于个人学习和研究

最佳实践

  • 批量处理:如需处理多个视频,使用 batch_transcribe() 函数避免重复加载模型
  • 模型选择:默认使用 "small" 模型(中文效果好),如需更快可使用 "tiny",如需更准可使用 "base"
  • 文件格式:优先使用 wav 格式(16kHz, 单声道),兼容性最好
  • 摘要要准确反映原视频内容,不添加个人偏见
  • 时间节点标记要精确到秒
  • 核心观点要用简洁的语言概括
  • 对于技术教程类视频,要突出关键步骤和命令

版本历史

共 1 个版本

  • v1.0.0 当前
    2026-05-07 07:52 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

knowledge-management

Obsidian

steipete
操作 Obsidian 仓库(纯 Markdown 笔记)并通过 obsidian-cli 自动化。
★ 451 📥 106,005
knowledge-management

web-tools-guide

user_ec205dbb
MANDATORY before calling web_search, web_fetch, browser, or opencli. Contains required error-handling procedures (web_se
★ 96 📥 170,465
knowledge-management

Summarize

paudyyin
智能摘要工具,自动为长文本、文档、网页生成摘要,提取要点与关键词,支持自定义摘要长度。
★ 968 📥 523,321