Qwen3-tts技能使用说明

2026-03-29 新闻来源：网淘吧围观:204

电脑广告

手机广告

Qwen TTS

使用Hugging Face的Qwen3-TTS-12Hz-1.7B-CustomVoice模型进行本地文本转语音。

快速开始

从文本生成语音：

Qwen3-tts

scripts/tts.py "Ciao, come va?" -l Italian -o output.wav

带语音指令（情感/风格）：

scripts/tts.py "Sono felice!" -i "Parla con entusiasmo" -l Italian -o happy.wav

不同说话者：

scripts/tts.py "Hello world" -s Ryan -l English -o hello.wav

安装

首次设置（一次性操作）：

cd skills/public/qwen-tts
bash scripts/setup.sh

这将创建一个本地虚拟环境并安装qwen-tts包（约500MB）。

注意：首次合成时会自动从Hugging Face下载约1.7GB的模型。

使用

scripts/tts.py [options] "Text to speak"

选项

-o, --output 路径- 输出文件路径（默认：qwen_output.wav）
-s, --speaker 名称- 说话者声音（默认：Vivian）
-l, --language 语言- 语言（默认：自动）
-i, --instruct TEXT- 语音指令（情感、风格、语调）
--list-speakers- 显示可用发言人
--model NAME- 模型名称（默认：CustomVoice 1.7B）

示例

基础意大利语语音：

scripts/tts.py "Benvenuto nel futuro del text-to-speech" -l Italian -o welcome.wav

带情感/指令：

scripts/tts.py "Sono molto felice di vederti!" -i "Parla con entusiasmo e gioia" -l Italian -o happy.wav

不同发言人：

scripts/tts.py "Hello, nice to meet you" -s Ryan -l English -o ryan.wav

列出可用发言人：

scripts/tts.py --list-speakers

可用发言人

CustomVoice 模型包含 9 种优质语音：

发言人	语言	描述
Vivian	中文	明亮、略带锋芒的年轻女性
Serena	中文	温暖、温柔的年轻女性
Uncle_Fu	中文	成熟男性，低沉醇厚
Dylan	中文（北京）	青春北京男声，清澈
Eric	中文（四川）	活泼成都男声，略带沙哑
Ryan	英语	动感男声，富有节奏感
Aiden	英语	阳光美国男声
Ono_Anna	日语	俏皮女声，轻快灵动
Sohee	韩语	温暖女声，情感饱满

推荐：为获得最佳音质，建议使用每位发言者的母语，不过所有发言者均支持全部10种语言（中文、英语、日语、韩语、德语、法语、俄语、葡萄牙语、西班牙语、意大利语）。

语音指令

使用-i, --instruct用于控制情感、语调和风格：

意大利语示例：

"热情洋溢地说话"
"严肃且专业的语气"
"平静且令人放松的声音"
"像旁白者一样朗读"

英语示例：

"以兴奋的语气说话"
"非常快乐且充满活力"
"平静且抚慰人心的声音"
"像旁白者一样朗读"

与 OpenClaw 集成

脚本将音频文件路径输出到标准输出（最后一行），使其与 OpenClaw 的 TTS 工作流兼容：

# OpenClaw captures the output path
cd skills/public/qwen-tts
OUTPUT=$(scripts/tts.py "Ciao" -s Vivian -l Italian -o /tmp/audio.wav 2>/dev/null)
# OUTPUT = /tmp/audio.wav

性能

GPU（CUDA）：短句约需 1-3 秒
CPU：短句约需 10-30 秒
模型大小：约 1.7GB（首次运行时自动下载）
虚拟环境大小：约500MB（已安装依赖项）

故障排除

安装失败：

# Ensure Python 3.10-3.12 is available
python3.12 --version

# Re-run setup
cd skills/public/qwen-tts
rm -rf venv
bash scripts/setup.sh

模型下载缓慢/失败：

# Use mirror (China mainland)
export HF_ENDPOINT=https://hf-mirror.com
scripts/tts.py "Test" -o test.wav

内存不足（GPU）：若GPU内存不足，模型将自动回退至CPU运行。

音频质量问题：

尝试更换说话人：--list-speakers
添加指令：-i "请清晰且缓慢地说话"
检查语言是否与文本匹配：-l Italian用于意大利语文本

模型详情

模型：Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice
来源：Hugging Face (https://huggingface.co/Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice)
许可证：请查看模型卡片以获取当前许可条款
采样率：16千赫
输出格式：WAV（未压缩）

免责申明

部分文章来自各大搜索引擎，如有侵权，请与我联系删除。

打赏

文章底部电脑广告

手机广告位-内容正文底部

标签

上一篇：Clipboard技能使用说明下一篇：Web Deploy技能使用说明

Qwen3-tts技能使用说明

Qwen TTS

快速开始

安装

使用

选项

示例

可用发言人

语音指令

与 OpenClaw 集成

性能

故障排除

模型详情

相关文章

推荐文章

热门浏览

标签列表