← 返回
未分类 Key

Qwen Tts

阿里云千问语音合成(TTS)技能,支持将文本转换为自然语音。当用户要求朗读、语音合成、文字转语音、TTS、读一段话、把文字转成声音时使用。支持多种音色(中文/英文/方言),支持流式输出边合成边播放。
阿里云千问语音合成(TTS)技能,支持将文本转换为自然语音。当用户要求朗读、语音合成、文字转语音、TTS、读一段话、把文字转成声音时使用。支持多种音色(中文/英文/方言),支持流式输出边合成边播放。
lanlan314
未分类 clawhub v1.0.2 1 版本 100000 Key: 需要
★ 0
Stars
📥 322
下载
💾 0
安装
1
版本
#latest

概述

千问语音合成技能 (qwen-tts)

⚠️ 环境变量配置

基础配置(使用任何脚本都需要)

环境变量说明获取方式
-------------------------
DASHSCOPE_API_KEY千问 API 密钥阿里云百炼控制台

飞书配置(仅 speak_and_send.py 需要)

speak.sh 只需要 DASHSCOPE_API_KEY。如果需要发送语音到飞书,还需配置:

环境变量说明获取方式
-------------------------
FEISHU_APP_ID飞书应用 App ID飞书开放平台应用凭证
FEISHU_APP_SECRET飞书应用 App Secret飞书开放平台应用凭证
FEISHU_USER_ID接收语音的飞书用户 ID飞书用户 open_id

最小配置(只需 DASHSCOPE_API_KEY):

export DASHSCOPE_API_KEY="sk-xxxxx"

完整配置(包含飞书发送):

export DASHSCOPE_API_KEY="sk-xxxxx"
export FEISHU_APP_ID="cli_xxxxx"
export FEISHU_APP_SECRET="xxxxx"
export FEISHU_USER_ID="ou_xxxxx"

快速使用

基本语音合成(同步接口)

使用 curl 调用千问 TTS:

curl -X POST 'https://dashscope.aliyuncs.com/api/v1/services/aigc/multimodal-generation/generation' \
  -H "Authorization: Bearer $DASHSCOPE_API_KEY" \
  -H 'Content-Type: application/json' \
  -d '{
    "model": "qwen3-tts-flash",
    "input": {
      "text": "要转换的文本内容",
      "voice": "Cherry",
      "language_type": "Chinese"
    }
  }'

常用模型

模型特点适用场景
---------------------
qwen3-tts-flash快速、便宜短文本、导航、通知、教育课件
qwen3-tts-instruct-flash支持指令控制情感有声书、广播剧、游戏配音
qwen3-tts-vd声音设计品牌定制、从零设计音色
qwen3-tts-vc声音复刻基于样本复刻真人音色

常用音色(voice 参数)

音色名语言/风格说明
-------------------------
Cherry中文女声,活泼
Azure英文女声,标准
Alexander英文男声
Huogeng中文女声,温柔
Shanbin中文男声,沉稳
Emma英文女声,轻快

> 更多音色请参见 references/voices.md

常用参数

参数说明默认值
-------------------
text要转换的文本,建议不超过300字符必填
voice音色名称Cherry
language_type文本语言:Chinese / English / yue(粤语)等自动检测
instructions情感/风格指令(仅 instruct 模型)-

输出格式

音频 URL 有效期 24小时,返回格式为 wav。

执行流程

  1. 检查环境变量:确保 DASHSCOPE_API_KEY 已设置
  2. 构建请求:根据文本和音色参数构建 JSON
  3. 调用 API:POST 到千问 TTS 接口
  4. 下载音频:从响应中提取 URL 并下载
  5. 返回结果:音频文件路径或发送给你

示例:中文朗读

curl -X POST 'https://dashscope.aliyuncs.com/api/v1/services/aigc/multimodal-generation/generation' \
  -H "Authorization: Bearer $DASHSCOPE_API_KEY" \
  -H 'Content-Type: application/json' \
  -d '{
    "model": "qwen3-tts-flash",
    "input": {
      "text": "你好,我是千问语音助手,今天天气真不错。",
      "voice": "Cherry",
      "language_type": "Chinese"
    }
  }'

脚本说明

本技能包含两个脚本,按需使用:

scripts/speak.sh

纯 Bash 脚本,仅生成本地音频文件,不需要飞书凭证

# 只需要 DASHSCOPE_API_KEY
./speak.sh "要转换的文本" [音色]
# 输出: /tmp/qwen_tts_xxx.ogg

scripts/speak_and_send.py

Python 脚本,生成 TTS 并发送到飞书,需要配置飞书凭证

# 需要 DASHSCOPE_API_KEY + FEISHU_* 环境变量
python3 speak_and_send.py "要说的文本" [音色]
# 自动发送到配置的 FEISHU_USER_ID

参考资料

完整音色列表和 API 文档请参见:

依赖说明

  • ffmpeg - 音频格式转换(脚本需要)
  • jq - JSON 处理(speak.sh 需要)
  • python3 + requests - speak_and_send.py 需要

版本历史

共 1 个版本

  • v1.0.2 当前
    2026-05-07 13:13 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

design-media

Openai Whisper

steipete
使用 Whisper CLI 进行本地语音转文字(无需 API 密钥)
★ 331 📥 93,959
design-media

UI/UX Pro Max

xobi667
提供 UI/UX 设计智能与实现指导,帮助打造精美界面。适用于 UI 设计、UX 流程、信息架构、视觉风格、设计系统/标记、组件规格、文案/微文案、无障碍及前端 UI(HTML/CSS/JS、React、Next.js、Vue、Svelte
★ 218 📥 47,816
design-media

Nano Banana Pro

steipete
使用 Nano Banana Pro (Gemini 3 Pro Image) 生成或编辑图像。支持文生图、图生图及 1K/2K/4K 分辨率,适用于图像创建、修改及编辑请求,使用 --input-image 指定输入图像。
★ 430 📥 117,071