mimotts25
小米大模型 MiMo TTS 2.5 语音合成。支持多种预设音色(中文/英文/默认)、风格控制(情感、方言、角色扮演、语速)、音频标签精细控制。Use when the user asks to convert text to speech, generate audio, read text aloud with a specific style/emotion/dialect, or create voice files.
Install via CLI (Recommended)
clawhub install openclaw/skills/skills/aaroncxxx/mimotts25MiMo TTS 2.5.2 — 语音合成
小米大模型 MiMo TTS 2.5.2 版本,高质量中文/英文语音合成。
🆕 2.5.2 版本更新
新增音色
mimo_male- 男声音色mimo_child- 童声音色mimo_cantonese- 粤语音色mimo_sichuan- 四川话语音
新增音频格式
mp3- 更小的文件大小,适合网络传输ogg- 更好的兼容性,开源格式
优化功能
- ✅ 重试机制:自动处理API限流
- ✅ 改进错误处理:更详细的错误信息
- ✅ 超时设置:避免长时间等待
首次配置
⚠️ TTS 的 API Key 独立于模型推理 Key。 即使 mimo-v2-pro 能正常调用,TTS 仍需单独配置 Key。
- 前往小米 MiMo 开放平台获取 TTS API Key:https://api.xiaomimimo.com
- 通过 OpenClaw 配置:
openclaw config set skills.entries.mimotts25.apiKey "your-tts-api-key-here"
或直接设置环境变量 MIMO_API_KEY。
配置后需重启会话。
故障排查
| 错误 | 原因 | 解决 |
|---|---|---|
401 Invalid API Key | API Key 未传入或格式不对 | 确认已用 config set 配置 TTS 专用 Key,重启会话 |
| 工具调用被 abort | 上下文过长或系统繁忙 | 等几秒后重试 |
生成语音
使用 scripts/tts.py 合成语音:
python3 "{baseDir}/scripts/tts.py" "要合成的文本" -o output.wav
参数说明
| 参数 | 默认值 | 说明 |
|---|---|---|
-o | output.wav | 输出文件路径 |
-v | mimo_default | 音色:mimo_default、default_zh、default_en、mimo_male、mimo_child、mimo_cantonese、mimo_sichuan |
-s | 无 | 风格标签,如 开心、东北话、悄悄话、孙悟空 |
-f | wav | 音频格式:wav、mp3、ogg |
--user-msg | 无 | 可选的用户角色上下文,用于调整语气 |
--api-key | 环境变量 MIMO_API_KEY | API Key 覆盖 |
--max-retries | 3 | API调用最大重试次数 |
--list-voices | 无 | 列出所有可用音色 |
--list-formats | 无 | 列出所有可用音频格式 |
使用示例
# 基础合成
python3 "{baseDir}/scripts/tts.py" "你好,今天天气真好" -o hello.wav
# 方言风格
python3 "{baseDir}/scripts/tts.py" "哎呀妈呀,这天儿也忒冷了吧" -s "东北话" -o dongbei.wav
# 英文音色
python3 "{baseDir}/scripts/tts.py" "Hello, how are you today?" -v default_en -o hello_en.wav
# 情感 + 语速
python3 "{baseDir}/scripts/tts.py" "明天就是周五了,真开心!" -s "开心 变快" -o happy.wav
# 唱歌
python3 "{baseDir}/scripts/tts.py" "一闪一闪亮晶晶" -s "唱歌" -o sing.wav
# 🆕 2.5.2 新功能示例
# 男声音色
python3 "{baseDir}/scripts/tts.py" "大家好,我是你们的主持人" -v mimo_male -o male.wav
# 童声音色
python3 "{baseDir}/scripts/tts.py" "妈妈,我想吃糖" -v mimo_child -o child.wav
# 粤语
python3 "{baseDir}/scripts/tts.py" "你好,今日天气好好" -v mimo_cantonese -o cantonese.wav
# 四川话
python3 "{baseDir}/scripts/tts.py" "这个火锅巴适得很" -v mimo_sichuan -o sichuan.wav
# MP3格式(更小的文件)
python3 "{baseDir}/scripts/tts.py" "今天心情不错" -f mp3 -o output.mp3
# OGG格式(开源格式)
python3 "{baseDir}/scripts/tts.py" "测试音频" -f ogg -o output.ogg
# 列出所有可用音色
python3 "{baseDir}/scripts/tts.py" --list-voices
# 列出所有可用音频格式
python3 "{baseDir}/scripts/tts.py" --list-formats
风格与音频标签
- 在文本开头使用
<style>风格</style>设置整体风格 - 行内音频标签精细控制:
(紧张)、(小声)、(语速加快)、(深呼吸)、(苦笑)、(沉默片刻) - 多风格组合:
<style>开心 变快</style>文本内容
🆕 2.5.2 新增风格标签
(停顿)- 自然停顿(叹气)- 叹气声(笑声)- 轻笑(清嗓子)- 清嗓子声音(耳语)- 耳语效果
音色列表
| 名称 | voice 参数 |
|---|---|
| MiMo-默认 | mimo_default |
| MiMo-中文女声 | default_zh |
| MiMo-英文女声 | default_en |
| MiMo-男声 | mimo_male |
| MiMo-童声 | mimo_child |
| MiMo-粤语 | mimo_cantonese |
| MiMo-四川话 | mimo_sichuan |
参考风格
Metadata
Not sure this is the right skill?
Describe what you want to build — we'll match you to the best skill from 16,000+ options.
Find the right skillPaste this into your clawhub.json to enable this plugin.
{
"plugins": {
"official-aaroncxxx-mimotts25": {
"enabled": true,
"auto_update": true
}
}
}Related Skills
how-much-token-did-this-chat-used
Track and display token usage for the current OpenClaw session and recent sessions, with cost estimation and remaining days projection. Auto-detects active model and matches billing rules dynamically. Shows: current session tokens, session cost, today's cumulative usage, last 10 session averages, 7-day usage trend, top spending sessions, credit balance with alerts, and weighted remaining days projection. Use when the user asks about token consumption, cost, usage stats, "用了多少 token" / "token 用量" / "消耗了多少" / "最近十个chat" / "credit" / "余额" / "还能用几天" / "花费" / "趋势".
Mimo Tts Asr 26 Free
Skill by aaroncxxx
Empire Architecture
Skill by aaroncxxx
mimo-tts-asr
Xiaomi MiMo V2.5 TTS + ASR 全能语音技能。支持高质量中英文语音合成(TTS)和语音识别(ASR)。 TTS: 三款模型(精品音色 / VoiceDesign 音色设计 / VoiceClone 音色克隆)、方言支持、情感控制、多格式输出。 ASR: 音频转文字、多语言识别、方言、Code-Switch、强噪音场景。支持 API 调用和开源模型本地部署。 触发词: 语音合成 / 文字转语音 / TTS / 朗读 / 说话 / 唱歌 / 语音识别 / 转文字 / 听写 / ASR / 音色设计 / 音色克隆 / 声音克隆 / voice design / voice clone / voice / speech / read aloud / transcribe / speech-to-text / 语音转文字 / 音频转文字。 Use when: 用户要求将文字转为语音、朗读文本、生成音频、识别音频内容、将音频转为文字、设计音色、克隆音色。
drop-caches-cleanup
一键清理系统内存(RAM)/ One-click system memory cleanup. 当用户说"清理内存"、"释放内存"、"一键清理"、"drop caches"、"内存太高"、"卡"、"慢" / "clear memory"、"free memory"、"memory cleanup"、"system lag" 时使用。 支持 Linux drop_caches / macOS purge,分级清理,阈值检查。