概述

YM MediaToolkit

自然语言媒体助手，支持从远程视频 URL、当前工作目录内的本地视频文件、或配置过 media_roots 的本地媒体目录直接处理：

自然语言调用
视频压缩
MP4/MOV 封面提取
音频提取与转换：MP3 / WAV / AAC / M4A
OCR / ASR 字幕识别
emlet 字幕二次分句
批量处理
JSON 驱动媒体流水线

依赖

pip install -r requirements.txt

系统需要安装：

ffmpeg
ffprobe

字幕识别依赖已内置在 requirements.txt，包括 faster-whisper、paddlepaddle、paddleocr。

维护

维护、发布、测试和排障流程见 MAINTENANCE.md。

命令行

python run.py -a <action> -i '<json>'

也可以从 JSON 文件读取参数：

python run.py -i params.json

HTTP 服务

python run.py --serve

默认监听 127.0.0.1:8080。

健康检查：

GET /health

异步长任务：

POST /skill/jobs
GET /skill/jobs/<job_id>
GET /skill/jobs

功能

输入源字段可使用 video_url、url 或 source，三者等价。远程输入仅支持 http/https，本地输入默认限制在当前工作目录内；需要访问绝对路径时，通过请求参数 media_roots 或环境变量 YM_MEDIA_ROOTS 配置允许的媒体根目录。

返回协议

从 4.1.0 开始，所有 action 都会返回稳定协议字段：

字段	说明
------	------
`status`	`success` / `partial` / `skipped` / `error`
`code`	稳定机器码，例如 `ok`、`missing_source`、`output_exists`、`parse_failed`
`reply`	适合聊天展示的简短中文回复
`hint`	面向调用方或用户的下一步建议

原有业务字段会继续保留，例如 output_path、saved_path、outputPath、manifest_path、info、captions、result。

默认输出目录：

类型	默认目录
------	----------
压缩视频	`output/videos`
音频	`output/audio`
封面	`output/thumbs`

所有会写文件的接口都支持 overwrite，默认 true。设置为 false 时，如果输出文件已存在会直接返回错误。

3.0.3 更新

支持当前工作目录内的本地视频文件输入。
统一 video_url / url / source 三种输入字段。
增加默认输出目录：output/videos、output/audio、output/thumbs。
增加 overwrite 覆盖策略，避免误覆盖已有文件。

4.0.0 更新

新增自然语言入口 chat，适合 Claw 直接转发用户聊天文本。
新增 media_roots 白名单，支持处理授权目录内的绝对路径文件。
自然语言命令支持提取音频、提取封面、压缩、查看信息、JSON 流水线。
chat 返回 reply 和结构化 result，同时兼顾聊天展示和自动化消费。

4.0.1 更新

新增 subtitle 推荐入口，支持 asr / ocr / fusion 模式。
新增 asr 和 ocr 单独调试入口。
字幕统一输出 SRT-like JSON：captionTxt、startTimeUs、endTimeUs、source、confidence。
chat 支持“识别字幕 / 提取字幕 / 转字幕 / 生成字幕”等自然语言命令。

4.0.2 更新

将 faster-whisper、paddlepaddle、paddleocr 纳入默认 requirements.txt。
字幕识别从“可选依赖”调整为默认安装能力。
运行时仍保留缺依赖 JSON error，方便定位未重新安装依赖的环境。

4.1.0 更新

所有 action 统一补齐 code、reply、hint，方便 Claw 和后续渠道适配。
增加稳定错误码：missing_source、source_not_allowed、output_exists、parse_failed、missing_steps、unsupported_action、ffmpeg_failed、missing_asr_dependency、missing_ocr_dependency。
保持旧字段兼容，不改变现有 action 名称、HTTP endpoint 和底层媒体处理逻辑。

4.1.1 更新

新增 caption_segment，用于 emlet 字幕二次分句。
默认每句最多 12 个字符，按强标点、弱标点、连接词和长度切分。
新增 protected_terms 和 protected_terms_path，用于保护品牌词、产品名、人名、术语不被拆开。
pipeline 支持 subtitle -> caption_segment 串联；分句步骤未传 caption_path 时会自动使用上一步字幕 JSON。

4.2.0 更新

新增 HTTP 异步长任务接口 /skill/jobs，适合压缩、ASR/OCR、字幕和 pipeline 等耗时 action。
任务状态持久化到 output/jobs//job.json，支持提交、轮询和列表查询。
现有 /skill/ 同步接口保持不变；CLI 仍保持同步执行。

4.3.0 更新

chat 增加 HTTP 异步闭环：async=true 会把识别出的 action 提交为 job。
async="auto" 会自动将 audio、compress、asr、ocr、subtitle、caption_segment、batch、pipeline 作为异步长任务执行；info、audio_info、thumbnail 保持同步返回。
job 快照新增 created_by、intent、source、metadata，方便 Claw 按聊天上下文展示结果。
HTTP 服务启动时会清理过旧终态 job，默认保留 7 天且最多 200 条。

自然语言调用

Action: chat

Claw 推荐优先调用 chat。普通短命令可同步调用；压缩、字幕、pipeline 等长任务推荐 HTTP 调用时传入 async:"auto"。复杂、确定性要求高的多步骤流程继续使用 pipeline。

python run.py -a chat -i '{"message":"将 \"sample.mp4\" 提取音频"}'
python run.py -a chat -i '{"message":"给 \"sample.mp4\" 提取第 3 秒封面"}'
python run.py -a chat -i '{"message":"压缩 \"sample.mp4\""}'
python run.py -a chat -i '{"message":"查看 \"sample.mp4\" 信息"}'
python run.py -a chat -i '{"message":"识别 \"sample.mp4\" 的字幕"}'

HTTP / Claw 长任务推荐：

curl -X POST http://127.0.0.1:8080/skill/chat \
  -H 'Content-Type: application/json' \
  -d '{"message":"识别 \"sample.mp4\" 的字幕","async":"auto"}'

返回会包含 job_id、poll_url、job_path，随后轮询 poll_url 获取 reply、result 和 output_paths。如需全部自然语言命令都进入 job，可传 async:true；如需短等待，可传 wait_timeout_sec。

处理绝对路径时需要配置媒体根目录：

python run.py -a chat -i '{"message":"将 \"D:/AA.MP4\" 提取音频","media_roots":["D:/"]}'

返回包含：

字段	说明
------	------
`reply`	可直接展示给用户的聊天回复
`intent`	识别出的意图
`action`	实际调用的 action
`params`	传给底层 action 的参数
`result`	底层 action 原始结果
`output_paths`	本次生成的输出路径列表
`job_id`	异步提交时的任务 id
`poll_url`	异步提交后的轮询地址

HTTP 异步长任务

Action 可以继续同步调用，也可以通过 job API 异步执行。推荐对 compress、asr、ocr、subtitle、pipeline 等长任务使用异步接口。

提交任务：

curl -X POST http://127.0.0.1:8080/skill/jobs \
  -H 'Content-Type: application/json' \
  -d '{"action":"pipeline","params":{"source":"sample.mp4","steps":[{"id":"metadata","action":"info","enabled":true}]}}'

返回：

{
  "status": "queued",
  "code": "ok",
  "reply": "任务已提交：<job_id>",
  "job_id": "<job_id>",
  "job_path": "output/jobs/<job_id>/job.json",
  "poll_url": "/skill/jobs/<job_id>"
}

轮询任务：

curl http://127.0.0.1:8080/skill/jobs/<job_id>

任务状态包括：queued、running、success、partial、skipped、error。任务结果保存在 result，产物路径汇总在 output_paths。

查询任务列表：

curl 'http://127.0.0.1:8080/skill/jobs?status=success&limit=50'

任务文件存储在 output/jobs//job.json。服务重启后，已完成任务仍可查询；未完成的 queued / running 任务会标记为 error，code=job_interrupted。

字幕识别

Action: subtitle

推荐使用 subtitle，默认 mode=fusion：ASR 负责主要时间轴和文本，OCR 做画面字幕校正。识别依赖随 requirements.txt 安装；如果环境未重新安装依赖，会返回 JSON error，不会抛未捕获异常。

python run.py -a subtitle -i '{"source":"sample.mp4","mode":"fusion"}'
python run.py -a subtitle -i '{"source":"sample.mp4","mode":"asr","language":"zh"}'
python run.py -a subtitle -i '{"source":"sample.mp4","mode":"ocr","sample_interval_sec":1}'

参数：

参数	类型	默认值	说明
------	------	--------	------
`video_url` / `url` / `source`	string	必填	远程 URL 或本地文件
`mode`	string	fusion	`asr` / `ocr` / `fusion`
`language`	string	auto	ASR 语言，例：`zh` / `en`
`model_size`	string	base	faster-whisper 模型规格
`sample_interval_sec`	number	1.0	OCR 抽帧间隔
`crop_bottom_ratio`	number	0.35	OCR 默认扫描画面下方比例
`output_path`	string	`output/subtitles/...`	字幕 JSON 输出路径
`overwrite`	boolean	true	是否覆盖已有文件

字幕条目格式：

{
  "captionTxt": "识别到的字幕文本",
  "startTimeUs": 1000000,
  "endTimeUs": 2000000,
  "source": "asr",
  "confidence": 0.92
}

底层调试入口：

python run.py -a asr -i '{"source":"sample.mp4","language":"zh"}'
python run.py -a ocr -i '{"source":"sample.mp4"}'

字幕二次分句

Action: caption_segment

caption_segment 是 emlet 字幕分句器：它不重新识别字幕，只处理已有 captions。默认 max_chars=12，输出仍是 SRT-like captions JSON。

python run.py -a caption_segment -i '{
  "caption_path":"output/subtitles/sample.captions.json",
  "max_chars":12,
  "protected_terms":["苹果","华为","吉利"]
}'

也可以直接传 captions：

python run.py -a caption_segment -i '{
  "captions":[
    {"captionTxt":"今天我们聊苹果华为和吉利的新产品","startTimeUs":0,"endTimeUs":3000000}
  ],
  "max_chars":12,
  "protected_terms":"苹果,华为,吉利"
}'

长期词库可以放在 JSON 文件中：

{
  "brands": ["苹果", "华为", "吉利"],
  "products": ["小米汽车", "Model Y", "ChatGPT"]
}

参数：

参数	类型	默认值	说明
------	------	--------	------
`caption_path` / `input_path`	string	-	已有 captions JSON 文件
`captions`	array	-	直接传入字幕条目
`max_chars`	integer	12	单条字幕最大字符数
`protected_terms`	array/string	[]	不拆开的品牌词、产品名、人名、术语
`protected_terms_path`	string	-	当前工作目录内的保护词 JSON 文件
`auto_protect_ascii`	boolean	true	自动保护英文、数字、型号、URL、路径
`output_path`	string	`output/subtitles/...`	分句后字幕 JSON 输出路径
`overwrite`	boolean	true	是否覆盖已有文件

压缩视频

Action: compress

python run.py -a compress -i '{"source":"sample.mp4","target_ratio":0.1}'

参数：

参数	类型	默认值	说明
------	------	--------	------
`video_url` / `url` / `source`	string	必填	远程 URL 或本地文件
`target_ratio`	number	0.1	目标体积比例
`adaptive`	boolean	true	是否自动尝试不同 CRF
`crf`	integer	24	非 adaptive 模式下使用
`preset`	string	veryfast	ffmpeg 编码预设
`output_path`	string	`output/videos/...`	输出路径
`overwrite`	boolean	true	是否覆盖已有文件

提取封面

Action: thumbnail

当前支持 MP4/MOV 容器，主要适用于 H.264/H.265 视频轨道。

python run.py -a thumbnail -i '{"source":"sample.mp4","time_seconds":5}'

参数：

参数	类型	默认值	说明
------	------	--------	------
`video_url` / `url` / `source`	string	必填	远程 URL 或本地文件
`time_seconds`	number	0	按时间点提取
`frame_number`	integer	-	按帧号提取，优先于 `time_seconds`
`save_path`	string	`output/thumbs/...`	保存路径
`resize_width`	integer	-	输出宽度
`quality`	integer	85	JPEG 质量
`overwrite`	boolean	true	是否覆盖已有文件

提取音频

Action: audio

python run.py -a audio -i '{"source":"sample.mp4","format":"mp3"}'

参数：

参数	类型	默认值	说明
------	------	--------	------
`video_url` / `url` / `source`	string	必填	远程 URL 或本地文件
`format`	string	mp3	mp3 / wav / aac / m4a
`bitrate`	string	128k	音频比特率
`sample_rate`	integer	44100	采样率
`channels`	integer	2	声道数
`start_time`	number	-	开始时间，秒
`duration`	number	-	截取时长，秒
`output_path`	string	`output/audio/...`	输出路径
`overwrite`	boolean	true	是否覆盖已有文件

批量音频

Action: audio_batch

python run.py -a audio_batch -i '{
  "videos":[
    {"source":"sample1.mp4","name":"video1"},
    {"url":"https://example.com/2.mp4","name":"video2"}
  ],
  "output_dir":"output/audio",
  "format":"mp3"
}'

批量处理

Action: batch

python run.py -a batch -i '{
  "action":"thumbnail",
  "videos":[
    {"source":"sample1.mp4","time_seconds":5},
    {"url":"https://example.com/2.mp4","time_seconds":10}
  ]
}'

action 支持：compress、thumbnail、audio。

JSON 流水线

Action: pipeline

steps 是唯一流程控制入口，没有写进 steps 的动作不会执行。支持的 step action：info、thumbnail、audio、compress、audio_info、asr、ocr、subtitle、caption_segment。

python run.py -a pipeline -i '{
  "source":"sample.mp4",
  "name":"sample",
  "output_dir":"output/pipeline/sample",
  "overwrite":true,
  "steps":[
    {"id":"metadata","action":"info","enabled":true},
    {
      "id":"cover",
      "action":"thumbnail",
      "enabled":true,
      "params":{"time_seconds":3,"resize_width":720}
    },
    {
      "id":"audio_mp3",
      "action":"audio",
      "enabled":false,
      "params":{"format":"mp3","bitrate":"128k"}
    }
  ]
}'

规则：

参数	类型	默认值	说明
------	------	--------	------
`video_url` / `url` / `source`	string	必填	远程 URL 或本地文件
`name`	string	输入文件名	流水线名称
`output_dir`	string	`output/pipeline/`	manifest 和默认产物目录
`overwrite`	boolean	true	是否覆盖已有产物
`steps`	array	必填	按 JSON 顺序执行的步骤

每个 step 需要 id、action、enabled。enabled=false 会记录为 skipped。每次执行都会生成 manifest.json。

获取信息

python run.py -a info -i '{"source":"sample.mp4"}'
python run.py -a audio_info -i '{"source":"sample.mp4"}'

注意

远程输入仅支持 http / https。
本地输入路径默认限制在当前工作目录内；通过 media_roots / YM_MEDIA_ROOTS 可授权额外媒体根目录。
输出路径限制在当前工作目录内。
HTTP 服务默认只绑定本机地址。

版本历史

共 6 个版本

v4.2.1 当前

2026-06-22 19:32
v4.2.0

2026-06-09 16:58
v4.0.1

2026-05-26 22:58
v4.0.0

2026-05-21 12:53
v3.0.1

2026-05-09 16:36 安全安全
v3.0.0

2026-05-07 07:30 安全安全

YM-MediaToolkit(媒体处理工具集)

概述