← 返回
内容创作 Key

MOSS Voice Generator 指令式音色生成

MOSI Studio 指令式音色生成(moss-voice-generator): 用自然语言描述想要的音色风格,无需指定预设 voice_id, 模型根据描述实时生成对应的声音。 触发词:指令式语音、按描述生成声音、自定义音色、描述一个声音、 "voice generator"、"generate voice...
MOSI Studio 指令式音色生成(moss-voice-generator): 用自然语言描述想要的音色风格,无需指定预设 voice_id, 模型根据描述实时生成对应的声音。 触发词:指令式语音、按描述生成声音、自定义音色、描述一个声音、 "voice generator"、"generate voice...
mkkb473
内容创作 clawhub v1.0.5 2 版本 100000 Key: 需要
★ 0
Stars
📥 681
下载
💾 16
安装
2
版本
#latest

概述

MOSS Voice Generator 指令式音色生成

不需要挑选预设音色,直接用文字描述想要的声音风格,模型会按描述实时合成。


快速开始

脚本路径:~/.openclaw/skills/moss-voice-generator/scripts/mosi_voice_generator.sh

bash ~/.openclaw/skills/moss-voice-generator/scripts/mosi_voice_generator.sh \
  --text "各位观众朋友们大家好,欢迎收看今天的节目。" \
  --instruction "播音腔女声,专业、清晰、有亲和力" \
  --output ~/.openclaw/workspace/output.wav

instruction 风格描述示例

--instruction 是核心参数,用中文或英文自由描述:

效果instruction 示例
-----------------------
专业播音播音腔女声,专业、清晰、有亲和力
温柔知性温柔知性的女声,语速缓慢,像在讲故事
活力男声年轻有活力的男声,热情开朗,像综艺主持人
低沉磁性沉稳有力的男声,低沉磁性,像纪录片旁白
甜美可爱甜美可爱的女声,活泼轻快,像动漫配音
老人声音年迈的老爷爷声音,略带沙哑,语速较慢
英文主持professional female news anchor voice, clear and authoritative

描述越具体,效果越接近预期;可以包含性别、年龄、情绪、场景等维度。


与普通 TTS 的区别

moss-tts(普通 TTS)moss-voice-generator
-------------------------------------------
音色来源从预设列表挑 voice_id用文字描述即时生成
稳定性高(同一 voice_id 结果一致)中(每次略有差异)
灵活性受限于预设音色几乎无限制
适合场景需要稳定一致的品牌声音一次性生成、探索新音色

完整参数说明

--text, -t          要合成的文字(必填)
--instruction, -i   音色风格描述(必填)
--output, -o        输出 WAV 路径
                    (默认: ~/.openclaw/workspace/voice_gen_output.wav)
--temperature       采样温度,控制随机性(默认: 1.5)
--top-p             核采样阈值(默认: 0.6)
--top-k             Top-K 采样(默认: 50)
--api-key, -k       覆盖 MOSI_TTS_API_KEY 环境变量

调节 --temperature:值越高越随机,值越低越保守稳定。

一般保持默认即可,如果觉得音色太随意可以调低至 1.0。


环境准备

API Key 配置同 mosi-tts skill,读取 MOSI_TTS_API_KEY 环境变量。

详见 mosi-tts skill 的"环境准备"章节。

依赖:curljqbase64(均为标准 Unix 工具,通常已预装)


常见问题

Q:生成的音色每次都一样吗?

不一定。同样的 instruction 每次生成会有轻微差异(由 temperature 控制)。

如果需要完全稳定的音色,建议先用此工具探索满意的风格,

再通过声音克隆(mosi-tts skill 的 Voice Clone 功能)固化为 voice_id。

Q:可以克隆某人的声音吗?

本工具是根据文字描述生成全新音色,不是克隆真实人声。

克隆真实人声请使用 mosi-tts skill 的 Voice Clone 功能。

Q:输出是什么格式?

WAV(24kHz)。在飞书渠道必须转成语音气泡发送,

参考 mosi-tts skill 第 5 节(飞书语音气泡)的 mosi_feishu_voice.sh 脚本:

bash ~/.openclaw/skills/mosi-tts/scripts/mosi_feishu_voice.sh \
  --wav ~/.openclaw/workspace/voice_gen_output.wav \
  --chat-id "oc_xxxxxxxxxxxxxxxx"

版本历史

共 2 个版本

  • v1.0.5 当前
    2026-03-29 19:43 安全 安全
  • v1.0.0
    2026-03-19 16:06

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

content-creation

Humanizer

biostartechnology
消除AI写作痕迹,使文本更自然真实。基于维基百科"AI写作特征"指南,识别并修正夸张象征、宣传用语、肤浅-ing分析、模糊归因、破折号滥用、三项排比、AI词汇、负面平行结构及冗长连接词等模式。
★ 857 📥 199,226
content-creation

Baidu Wenku AIPPT

ide-rea
使用百度文库 AI 智能生成 PPT,自动根据内容选择模板。
★ 66 📥 46,123
communication-collaboration

moss-tts-family-chatbot

mkkb473
MOSI Studio 音频全套能力:语音转文字(ASR)、文字转语音(TTS)、 多说话人对话合成、声音克隆、飞书语音气泡。 两类触发场景: 1. 消息中包含 "[media attached:"、"audio/ogg"、"audio/o
★ 0 📥 652