← 返回
未分类 Key

阿里云百炼-视频转文字

将本地视频文件的语音提取并转换为文字文案。当用户提到"视频转文案"、"提取视频文案"、"视频语音转文字"、"短视频文案提取"、"视频脚本提取"、"语音转写"时使用此技能。
托利亚斯
未分类 community v1.0.0 1 版本 100000 Key: 需要
★ 0
Stars
📥 542
下载
💾 121
安装
1
版本
#latest

概述

阿里百炼视频转文案 Skill

将本地视频文件的语音提取并转换为文字文案。

触发关键词

当用户提到以下关键词时,使用此技能:

  • 视频转文案
  • 提取视频文案
  • 视频语音转文字
  • 短视频文案提取
  • 视频脚本提取
  • 语音转写

功能

  • 提取本地视频的音频
  • 上传到阿里云 OSS(临时存储)
  • 调用阿里百炼 Paraformer-v2 语音识别 API 转写
  • 返回文案文本

限制

  • 支持格式:mp4, avi, mov, mkv, flv, wmv
  • 音频格式:mp3, wav, m4a, pcm
  • 最大视频大小:500MB
  • 最大视频时长:无限制(服务端处理)
  • 转写语言:中文普通话

前置要求

1. 安装 ffmpeg

Windows:

# 使用 winget
winget install ffmpeg

# 或使用 chocolatey
choco install ffmpeg

macOS:

brew install ffmpeg

Linux:

sudo apt install ffmpeg  # Ubuntu/Debian
sudo yum install ffmpeg   # CentOS

2. 配置凭证

需要在环境变量或 .env 文件中配置:

# 阿里云 DashScope API Key(必填)
DASHSCOPE_API_KEY=your-dashscope-api-key

# 阿里云 OSS 配置(必填)
ALIYUN_ACCESS_KEY_ID=your-access-key-id
ALIYUN_ACCESS_KEY_SECRET=your-access-key-secret
ALIYUN_OSS_BUCKET=your-bucket-name
ALIYUN_OSS_ENDPOINT=oss-cn-beijing.aliyuncs.com

使用方式

提取单个视频文案

python3 scripts/video2text.py '{"video": "/path/to/video.mp4"}'

批量提取多个视频文案

python3 scripts/video2text.py '{"videos": ["/path/video1.mp4", "/path/video2.mp4"]}'

指定输出目录

python3 scripts/video2text.py '{"video": "/path/to/video.mp4", "output_dir": "/path/to/output"}'

输出格式

输出为 JSONL(每行一个 JSON),支持流式读取:

单个视频结果行

{"type": "video_result", "index": 0, "video_path": "/path/to/video.mp4", "status": "completed", "text": "视频文案内容...", "duration": 65000}

汇总行

{"type": "summary", "status": "completed", "total": 3, "completed": 2, "failed": 1}

工作流程

  1. 校验 ffmpeg 是否可用
  2. 使用 ffmpeg 从视频提取音频(转换为 mp3)
  3. 上传音频到阿里云 OSS(生成临时 URL)
  4. 调用阿里百炼转写 API 创建转写任务
  5. 轮询任务状态,获取转写结果
  6. 输出文案文本

错误处理

  • ffmpeg 不可用:提示安装
  • 凭证配置缺失:提示配置
  • OSS 上传失败:输出错误信息
  • 转写失败:输出错误信息,继续处理下一个文件

版本历史

共 1 个版本

  • v1.0.0 Initial release 当前
    2026-04-02 18:20 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

content-creation

Marketing Skills

jchopard69
访问 23 个营销模块,提供转化率优化(CRO)、SEO、文案撰写、分析、发布、广告和社交媒体的清单、框架及可直接使用的交付物。
★ 145 📥 31,421
content-creation

humanizer-zh

liuxy951129-cpu
去除文本中的 AI 生成痕迹。适用于编辑或审阅文本,使其听起来更自然、更像人类书写。 基于维基百科的"AI 写作特征"综合指南。检测并修复以下模式:夸大的象征意义、 宣传性语言、以 -ing 结尾的肤浅分析、模糊的归因、破折号过度使用、三段
★ 64 📥 30,322
content-creation

Humanizer

biostartechnology
消除AI写作痕迹,使文本更自然真实。基于维基百科"AI写作特征"指南,识别并修正夸张象征、宣传用语、肤浅-ing分析、模糊归因、破折号滥用、三项排比、AI词汇、负面平行结构及冗长连接词等模式。
★ 924 📥 210,410