← 返回
未分类 Key

Xiaomi MiMo TTS

使用小米 MiMo TTS (mimo-v2-tts) 生成语音。 支持多种音色、风格控制、情感标签和方言。 需要 MIMO_API_KEY。
使用小米 MiMo TTS (mimo-v2-tts) 生成语音,支持多音色、风格、情感标签和方言,需 MIMO_API_KEY。
jazzqi jazzqi 来源
未分类 clawhub v1.2.5 1 版本 99889.4 Key: 需要
★ 1
Stars
📥 883
下载
💾 1
安装
1
版本
#latest#mimo#tts#xiaomi

概述

Xiaoma MiMo TTS

📁 目录结构

scripts/
├── mimo-tts.sh           # 基础版本统一入口
├── mimo-tts-smart.sh     # 智能版本统一入口
├── base/                 # 基础版本实现
│   ├── mimo-tts.sh       # Shell 基础版
│   ├── mimo_tts.js       # NodeJS 基础版
│   └── mimo_tts.py       # Python 基础版
├── smart/                # 智能版本实现
│   ├── mimo_tts_smart.js    # NodeJS 智能版
│   ├── mimo_tts_smart.py    # Python 智能版
│   └── mimo_tts_smart.sh    # Shell 智能版
├── utils/                # 工具脚本
│   └── test.sh           # 测试脚本
└── examples/             # 示例脚本
    └── demo.sh           # 演示脚本

✨ 核心能力

根据对话场景,智能选择最合适的语音风格!

作为 Agent,你应该主动理解对话内容,选择合适的:

  • 情感:开心、悲伤、紧张、愤怒、惊讶、温柔...
  • 方言:东北话、四川话、台湾腔、粤语...
  • 效果:悄悄话、夹子音、唱歌...
  • 语速:快、慢、正常

使用方式

基础用法

./scripts/mimo-tts.sh "文本" [输出文件]

带风格标签

# 在文本前加 <style> 标签
"<style>开心</style>今天真是太棒了!"
"<style>东北话</style>老铁,咋整啊?"
"<style>悄悄话</style>这是秘密哦..."

可用风格

类型示例
-----------
情感开心、悲伤、紧张、愤怒、惊讶、温柔
方言东北话、四川话、台湾腔、粤语、河南话
效果悄悄话、夹子音、唱歌
语速变快、变慢

情感标签(细粒度控制)

在文本中使用 () 添加情感:

"(紧张,深呼吸)呼……冷静,冷静"
"(咳嗽)咳咳,不好意思"
"(沉默片刻)……然后呢?"

Agent 职责

你应该主动判断对话场景,选择合适的风格!

判断原则

  1. 默认使用普通话,除非用户明显使用方言或有特别要求
  2. 根据内容选择情感
    • 好消息 → 开心
    • 坏消息/安慰 → 温柔、悲伤
    • 紧急情况 → 紧张、急促
    • 正式通知 → 严肃
  3. 根据场景选择效果
    • 私密内容 → 悄悄话
    • 朗读诗词 → 温柔、慢
    • 讲故事 → 根据角色变化

示例

用户说:"给我读首李白的诗"

→ 判断:诗词应温柔、舒缓

→ 生成:"床前明月光..."

用户说:"用东北话给我讲个笑话"

→ 判断:明确要求方言

→ 生成:"那个啥..."

用户说:"宝宝晚安"

→ 判断:亲密、温柔场景

→ 生成:"晚安,好梦哦~"

可用语音

语音参数
-----------
默认mimo_default
中文女声default_zh
英文女声default_eh

智能模式(说明与使用建议)

本项目提供“智能模式”(位于 scripts/mimo-tts-smart.sh 与 scripts/smart/ 下),它使用轻量的启发式与关键词检测来自动为文本选择合适的风格、方言与情感。该模式设计用于快速试验与交互式体验,而非对每种语境都保证高精度。

建议与行为:

  • 默认不在自动化流水线中启用智能模式。将其视为可选的便捷工具,需由 agent 或用户显式调用。
  • 若对输出准确性有较高要求,请在输入文本最前面使用 明确指定风格与方言。
  • 智能模式适合快速原型、演示与人机协作场景;不适合替代人工细致调整或用于对准确性敏感的生产流程。

调用示例:

# 显式启用智能模式(agent 或用户调用)
./scripts/mimo-tts-smart.sh "宝宝晚安,爱你哦~" output.ogg

# 若要手动覆盖智能判断,直接在文本前使用 style 标签
./scripts/mimo-tts.sh "<style>温柔</style>床前明月光..." out.ogg

使用方式

基础用法

./scripts/mimo-tts.sh "文本" [输出文件]

带风格标签

# 在文本前加 <style> 标签
"<style>开心</style>今天真是太棒了!"
"<style>东北话</style>老铁,咋整啊?"
"<style>悄悄话</style>这是秘密哦..."

可用风格

类型示例
-----------
情感开心、悲伤、紧张、愤怒、惊讶、温柔
方言东北话、四川话、台湾腔、粤语、河南话
效果悄悄话、夹子音、唱歌
语速变快、变慢

情感标签(细粒度控制)

在文本中使用 () 添加情感:

"(紧张,深呼吸)呼……冷静,冷静"
"(咳嗽)咳咳,不好意思"
"(沉默片刻)……然后呢?"

Agent 职责

你应该主动判断对话场景,选择合适的风格!

判断原则

  1. 默认使用普通话,除非用户明显使用方言或有特别要求
  2. 根据内容选择情感
    • 好消息 → 开心
    • 坏消息/安慰 → 温柔、悲伤
    • 紧急情况 → 紧张、急促
    • 正式通知 → 严肃
  3. 根据场景选择效果
    • 私密内容 → 悄悄话
    • 朗读诗词 → 温柔、慢
    • 讲故事 → 根据角色变化

示例

用户说:"给我读首李白的诗"

→ 判断:诗词应温柔、舒缓

→ 生成:"床前明月光..."

用户说:"用东北话给我讲个笑话"

→ 判断:明确要求方言

→ 生成:"那个啥..."

用户说:"宝宝晚安"

→ 判断:亲密、温柔场景

→ 生成:"晚安,好梦哦~"

可用语音

语音参数
-----------
默认mimo_default
中文女声default_zh
英文女声default_eh

🤖 智能版本 (多语言支持)

我们提供了多种智能脚本实现,可以自动分析文本内容并选择合适的风格:

🎯 实现支持

版本文件特点
------------------
统一入口mimo-tts-smart.sh自动选择最佳实现,优先NodeJS→Python→Shell
NodeJS 版mimo_tts_smart.js功能最完善,智能分析最准确
Python 版mimo_tts_smart.py功能完整,备用方案
Shell 版mimo_tts_smart.sh简化版,兼容性好

功能特点

自动分析

  • 检测情感关键词(开心、悲伤、紧张、愤怒、惊讶、温柔)
  • 识别方言特征(东北话、四川话、台湾腔、粤语)
  • 判断特殊效果(悄悄话、夹子音、唱歌)
  • 检测诗词格式(多行短句自动识别)

#

版本历史

共 1 个版本

  • v1.2.5 当前
    2026-05-01 05:54 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

design-media

Openai Whisper

steipete
使用 Whisper CLI 进行本地语音转文字(无需 API 密钥)
★ 330 📥 93,472
design-media

UI/UX Pro Max

xobi667
提供 UI/UX 设计智能与实现指导,帮助打造精美界面。适用于 UI 设计、UX 流程、信息架构、视觉风格、设计系统/标记、组件规格、文案/微文案、无障碍及前端 UI(HTML/CSS/JS、React、Next.js、Vue、Svelte
★ 216 📥 47,063
it-ops-security

System Maintenance

jazzqi
面向OpenClaw的完整维护系统,采用统一架构、文件系统治理和跨平台设计
★ 1 📥 1,835