← 返回
未分类 Key

mimotts25-plus (TTS增强版)

小米 MiMo TTS 2.5 Plus — 增强版语音合成。兼容官方接口,支持预置音色/声音设计/克隆/导演模式。
小米 MiMo TTS 2.5 Plus — 增强版语音合成,兼容官方接口,支持预置音色、声音设计、克隆及导演模式。
limingjing6666 limingjing6666 来源
未分类 clawhub v1.3.1 1 版本 100000 Key: 需要
★ 0
Stars
📥 468
下载
💾 0
安装
1
版本
#latest

概述

MiMo TTS 2.5 Plus

> 核心原则: 情感/语气指令放 user 消息(--context),要念的文字放 assistant 消息(--text)。指令越具体越有画面感,声音越自然。

铁律:--context 永远不留空

没有情感指令 = 机器人朗读。哪怕用户只说"念一句你好",也必须推断情感写进 --context

推断方法: 想象真人在什么场景说这句话,用画面感描述(情绪底色 + 语速节奏 + 声音质感,至少两项):

  • "说早上好" → --context "刚睡醒的慵懒带元气,语速偏慢,声音柔和温暖"
  • "念:对不起" → --context "真诚道歉,声音低沉柔和,语速放慢,尾音下沉"
  • 长文本(超2句)→ 描述段落内的情绪变化走向

文本增强:--text 合适位置插入音频标签(每2-3句一个,不过度):

对不起,我来晚了(歉意)对不起……[轻叹]我来晚了

完整示例:

python3 scripts/mimo_tts.py \
  --text "(温柔)晚安……[轻声]今天辛苦了,好好休息。" \
  --voice "冰糖" \
  --context "深夜安慰,像在耳边轻声说话,语速很慢,声音轻柔绵软,带一丝让人安心的倦意"

环境变量

变量说明必需
---------
MIMO_API_KEYAPI 密钥
MIMO_API_BASEAPI 端点(默认 https://token-plan-cn.xiaomimimo.com/v1可选
MIMO_OUTPUT默认输出路径可选

已知集群:中国 https://token-plan-cn.xiaomimimo.com/v1(默认)、公网 https://api.xiaomimimo.com/v1、海外以官方公布为准。可通过环境变量或 tts.py --base-url 切换。

模型与脚本

模型脚本用途
---------
mimo-v2.5-ttsmimo_tts.py预置音色(支持唱歌)
mimo-v2.5-tts-voicedesignmimo_tts_voicedesign.py文本描述定制音色
mimo-v2.5-tts-voiceclonemimo_tts_voiceclone.py音频样本复刻音色
统一入口tts.py增强快捷模式(--design / --clone / --base-url

选择:描述音色形象→voicedesign,给音频文件→voiceclone,其他→预置音色,复杂角色→导演模式。

用法

# 预置音色
python3 scripts/mimo_tts.py --text "你好" --voice "冰糖" --context "温柔,语速稍慢"
# 声音设计
python3 scripts/mimo_tts_voicedesign.py --context "青年女性,活泼元气" --text "你好呀!"
# 声音克隆
python3 scripts/mimo_tts_voiceclone.py --voice-file sample.mp3 --text "你好"
# 统一入口
python3 scripts/tts.py "你好" -v 冰糖
python3 scripts/tts.py "你好呀" --design "22岁女性,声音甜美"
python3 scripts/tts.py "你好" --clone sample.mp3
python3 scripts/tts.py "你终于来了" --user-msg "角色:22岁活泼少女..."

预置音色

Voice ID语言/性别风格
---------
冰糖(默认)中文女活泼少女
茉莉中文女知性女声
苏打中文男阳光少年
白桦中文男成熟男声
MiaEN FemaleLively
ChloeEN FemaleSweet Dreamy
MiloEN MaleSunny
DeanEN MaleSteady Gentle

音频标签(放在 --text 中)

整体风格(文本开头 (风格)):开心 悲伤 愤怒 温柔 慵懒 磁性 高冷 活泼 东北话 粤语 唱歌 夹子音 御姐音 正太音

行内标签 [标签][停顿] [长停顿] [语速加快] [语速放缓] [轻声] [低语] [叹气] [深呼吸] [哽咽] [笑] [大笑] [抽泣] [颤抖] [气声] [激动] [疲惫] [撒娇]

示例:(紧张)呼……冷静。[深呼吸]不就是面试吗……[语速加快]自我介绍背了五十遍了。

导演模式(高级)

--context 中写角色、场景、指导三要素,用于复杂情感/角色配音:

  • 角色:身份、性格、说话习惯
  • 场景:发生了什么、和谁说话、情绪位置
  • 指导:语速、气息、停顿、重音、音色质感、情绪起伏

音色描述(Voicedesign)

--context 必写四维度:性别+年龄、声音质感、情绪底色、语速节奏。可选:角色人设、说话风格、场景。1-4句即可。

注意:避免矛盾特征、音质效果词(混响/EQ)、模糊词(普通的/正常的)。合成文本要贴合音色。

交付

生成后:MEDIA:output.mp3

配置

  1. 获取密钥:小米 MiMo 开放平台
  2. export MIMO_API_KEY=your-keyopenclaw config set skills.entries.mimotts25-plus.apiKey "your-key"

版本历史

共 1 个版本

  • v1.3.1 当前
    2026-05-03 07:49 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

design-media

Video Frames

steipete
使用 ffmpeg 从视频中提取帧或短片。
★ 133 📥 52,758
design-media

Nano Banana Pro

steipete
使用 Nano Banana Pro (Gemini 3 Pro Image) 生成或编辑图像。支持文生图、图生图及 1K/2K/4K 分辨率,适用于图像创建、修改及编辑请求,使用 --input-image 指定输入图像。
★ 427 📥 116,539
design-media

UI/UX Pro Max

xobi667
提供 UI/UX 设计智能与实现指导,帮助打造精美界面。适用于 UI 设计、UX 流程、信息架构、视觉风格、设计系统/标记、组件规格、文案/微文案、无障碍及前端 UI(HTML/CSS/JS、React、Next.js、Vue、Svelte
★ 216 📥 46,998