概述

MOSS Voice Generator 指令式音色生成

不需要挑选预设音色，直接用文字描述想要的声音风格，模型会按描述实时合成。

快速开始

脚本路径：~/.openclaw/skills/moss-voice-generator/scripts/mosi_voice_generator.sh

bash ~/.openclaw/skills/moss-voice-generator/scripts/mosi_voice_generator.sh \
  --text "各位观众朋友们大家好，欢迎收看今天的节目。" \
  --instruction "播音腔女声，专业、清晰、有亲和力" \
  --output ~/.openclaw/workspace/output.wav

instruction 风格描述示例

--instruction 是核心参数，用中文或英文自由描述：

效果	instruction 示例
------	-----------------
专业播音	`播音腔女声，专业、清晰、有亲和力`
温柔知性	`温柔知性的女声，语速缓慢，像在讲故事`
活力男声	`年轻有活力的男声，热情开朗，像综艺主持人`
低沉磁性	`沉稳有力的男声，低沉磁性，像纪录片旁白`
甜美可爱	`甜美可爱的女声，活泼轻快，像动漫配音`
老人声音	`年迈的老爷爷声音，略带沙哑，语速较慢`
英文主持	`professional female news anchor voice, clear and authoritative`

描述越具体，效果越接近预期；可以包含性别、年龄、情绪、场景等维度。

与普通 TTS 的区别

	moss-tts（普通 TTS）	moss-voice-generator
-	---------------------	---------------------
音色来源	从预设列表挑 voice_id	用文字描述即时生成
稳定性	高（同一 voice_id 结果一致）	中（每次略有差异）
灵活性	受限于预设音色	几乎无限制
适合场景	需要稳定一致的品牌声音	一次性生成、探索新音色

完整参数说明

--text, -t          要合成的文字（必填）
--instruction, -i   音色风格描述（必填）
--output, -o        输出 WAV 路径
                    （默认: ~/.openclaw/workspace/voice_gen_output.wav）
--temperature       采样温度，控制随机性（默认: 1.5）
--top-p             核采样阈值（默认: 0.6）
--top-k             Top-K 采样（默认: 50）
--api-key, -k       覆盖 MOSI_TTS_API_KEY 环境变量

调节 --temperature：值越高越随机，值越低越保守稳定。

一般保持默认即可，如果觉得音色太随意可以调低至 1.0。

环境准备

API Key 配置同 mosi-tts skill，读取 MOSI_TTS_API_KEY 环境变量。

详见 mosi-tts skill 的"环境准备"章节。

依赖：curl、jq、base64（均为标准 Unix 工具，通常已预装）

常见问题

Q：生成的音色每次都一样吗？

不一定。同样的 instruction 每次生成会有轻微差异（由 temperature 控制）。

如果需要完全稳定的音色，建议先用此工具探索满意的风格，

再通过声音克隆（mosi-tts skill 的 Voice Clone 功能）固化为 voice_id。

Q：可以克隆某人的声音吗？

本工具是根据文字描述生成全新音色，不是克隆真实人声。

克隆真实人声请使用 mosi-tts skill 的 Voice Clone 功能。

Q：输出是什么格式？

WAV（24kHz）。在飞书渠道必须转成语音气泡发送，

参考 mosi-tts skill 第 5 节（飞书语音气泡）的 mosi_feishu_voice.sh 脚本：

bash ~/.openclaw/skills/mosi-tts/scripts/mosi_feishu_voice.sh \
  --wav ~/.openclaw/workspace/voice_gen_output.wav \
  --chat-id "oc_xxxxxxxxxxxxxxxx"

版本历史

共 2 个版本

v1.0.5 当前

2026-03-29 19:43 安全安全
v1.0.0

2026-03-19 16:06

安全检测

腾讯云安全 (Keen)

安全，无风险

查看报告

腾讯云安全 (Sanbu)

安全，无风险

查看报告

MOSS Voice Generator 指令式音色生成

概述

MOSS Voice Generator 指令式音色生成

快速开始

instruction 风格描述示例

与普通 TTS 的区别

完整参数说明

环境准备

常见问题

版本历史

安全检测

腾讯云安全 (Keen)

腾讯云安全 (Sanbu)

🔗 相关推荐

Humanizer

Baidu Wenku AIPPT

moss-tts-family-chatbot