Mimo Tts Asr 26 Free
Skill by aaroncxxx
Install via CLI (Recommended)
clawhub install openclaw/skills/skills/aaroncxxx/mimo-tts-asr-26-freeMiMo TTS & ASR v2.99.92 Free For Now
语音合成(TTS)与语音识别(ASR)Skill。三款 TTS 模型限时免费,ASR 云端预留中。
关于作者 — 十五年老米粉,用龙虾编程,撸起袖子就是干。
ClawHub Skill vs 官方 MiMo V2.5 TTS 差异分析
官方提供的是"模型能力",本 Skill 提供的是"工程化产品"——防限流、长文本分句、edge-tts 兜底、缓存、重试,这些生产环境必须但官方不提供的东西,全在这了。官方是引擎,本 Skill 是整车。
维度 本 Skill 官方 三合一封装 一个脚本统一调用 3 款 TTS 模型 只给 API,不给封装脚本 edge-tts 兜底 无 Key 自动降级到免费 TTS 无降级方案 防限流 随机延迟 + 并发控制 无客户端限流策略 长文本分句 120 字/段自动切分 不处理长文本 音频缓存 相同文本秒返,零消耗 无缓存 异常重试 502/503/timeout 自动重试 不处理 文本预处理 数字/符号/格式自动规范化 不处理 ASR 封装 asr.py 封装(需 GPU 或等云端开放) 只开源模型,不给脚本 联合工作流 TTS + ASR 串联示例 无工作流文档 开源方案指南 edge-tts/ChatTTS/GPT-SoVITS 等推荐 无 批量合成 --file逐行读取批量处理无 格式自动检测 根据 -o后缀推断格式需手动指定 默认预处理 数字/符号自动规范化(默认开启) 无 智能音色推荐 --recommend-voice根据情感/语言自动选音色无 质量自检 合成后自动检测空文件/静音/过短 无 目录监听 --watch自动合成新增 .txt 文件无
系统依赖
- ffmpeg/ffprobe:音频预处理、分片、格式转换必需
- python3:运行脚本
apt install ffmpeg # Debian/Ubuntu
brew install ffmpeg # macOS
配置
export MIMO_API_KEY="your-api-key"
或通过 OpenClaw 配置:
openclaw config set skills.entries.mimo-tts-asr.apiKey "your-key"
申请 Key:platform.xiaomimimo.com(当前限时免费)
🎧 在线体验:MiMo Studio 可快速试听各模型效果,无需配置。
💡 无 Key 也能用:不设
MIMO_API_KEY时自动走 edge-tts 免费通道(仅支持预置音色模式)
环境变量
| 变量 | 默认值 | 说明 |
|---|---|---|
MIMO_API_KEY | — | MiMo TTS API Key(必填,或走 edge-tts 兜底) |
MIMO_ASR_KEY | — | ASR API Key(可与 TTS 相同) |
MIMO_API_ENDPOINT | https://api.xiaomimimo.com/v1 | API 端点(可自定义) |
MIMO_TTS_MODEL | mimo-v2-audio-tts | 默认 TTS 模型名 |
MIMO_VOICE_SAMPLE | — | 默认声音克隆参考音频路径 |
USE_CLOUD_TTS | 1 | 设为 0 切换到 edge-tts 兜底 |
TTS — 语音合成
基础用法
python3 "{baseDir}/scripts/tts.py" "要合成的文本" -o output.wav
三款模型
| 模型 | 用途 | 关键参数 |
|---|---|---|
tts(默认) | 内置音色 + 情感/语速控制 | -v 音色, -s 风格 |
voice-design | 自然语言描述生成新音色 | --voice-desc |
voice-clone | 参考音频克隆音色 | --ref-audio |
预置音色
| 音色 | 语言 | 性别 | 风格 |
|---|---|---|---|
| 冰糖 | 中文 | 女 | 活泼少女,清脆甜美 |
| 茉莉 | 中文 | 女 | 知性女声,温柔稳重 |
| 苏打 | 中文 | 男 | 阳光少年,活力朝气 |
| 白桦 | 中文 | 男 | 成熟男声,沉稳大气 |
| Mia | English | Female | Lively girl |
| Chloe | English | Female | Witty Grace |
| Milo | English | Male | Sunny boy |
| Dean | English | Male | Steady Gentle |
💡 不设
MIMO_API_KEY时自动走 edge-tts 免费通道(音色自动匹配)
TTS 参数速查
行内音频标签
在文本中插入精细控制:
(停顿) (叹气) (笑声) (清嗓子) (耳语) (紧张) (小声) (语速加快) (深呼吸) (沉默片刻)
💡 多标签组合:
开心 变快放在文本开头设置整体风格。支持任意自然语言风格短语,无固定值限制。
导演剧本级结构化输入
对于有声剧、游戏角色、角色化对话等高一致性场景,支持分层描述:
python3 "{baseDir}/scripts/tts.py" "
【人物】林黛玉,柔弱敏感,语速偏慢
【场景】葬花,暮春时节,落花满地
【指导】声音带哽咽感,气息不稳,尾音渐弱
花谢花飞花满天,红消香断有谁怜?
" -o lin_daiyu.wav
模型会将人物、场景、指导三层独立理解,保持角色音色贯穿,同时每句话的表演单独控制。
文本理解能力
Metadata
Not sure this is the right skill?
Describe what you want to build — we'll match you to the best skill from 16,000+ options.
Find the right skillPaste this into your clawhub.json to enable this plugin.
{
"plugins": {
"official-aaroncxxx-mimo-tts-asr-26-free": {
"enabled": true,
"auto_update": true
}
}
}Related Skills
how-much-token-did-this-chat-used
Track and display token usage for the current OpenClaw session and recent sessions, with cost estimation and remaining days projection. Auto-detects active model and matches billing rules dynamically. Shows: current session tokens, session cost, today's cumulative usage, last 10 session averages, 7-day usage trend, top spending sessions, credit balance with alerts, and weighted remaining days projection. Use when the user asks about token consumption, cost, usage stats, "用了多少 token" / "token 用量" / "消耗了多少" / "最近十个chat" / "credit" / "余额" / "还能用几天" / "花费" / "趋势".
Empire Architecture
Skill by aaroncxxx
mimo-tts-asr
Xiaomi MiMo V2.5 TTS + ASR 全能语音技能。支持高质量中英文语音合成(TTS)和语音识别(ASR)。 TTS: 三款模型(精品音色 / VoiceDesign 音色设计 / VoiceClone 音色克隆)、方言支持、情感控制、多格式输出。 ASR: 音频转文字、多语言识别、方言、Code-Switch、强噪音场景。支持 API 调用和开源模型本地部署。 触发词: 语音合成 / 文字转语音 / TTS / 朗读 / 说话 / 唱歌 / 语音识别 / 转文字 / 听写 / ASR / 音色设计 / 音色克隆 / 声音克隆 / voice design / voice clone / voice / speech / read aloud / transcribe / speech-to-text / 语音转文字 / 音频转文字。 Use when: 用户要求将文字转为语音、朗读文本、生成音频、识别音频内容、将音频转为文字、设计音色、克隆音色。
drop-caches-cleanup
一键清理系统内存(RAM)/ One-click system memory cleanup. 当用户说"清理内存"、"释放内存"、"一键清理"、"drop caches"、"内存太高"、"卡"、"慢" / "clear memory"、"free memory"、"memory cleanup"、"system lag" 时使用。 支持 Linux drop_caches / macOS purge,分级清理,阈值检查。
mimotts25
小米大模型 MiMo TTS 2.5 语音合成。支持多种预设音色(中文/英文/默认)、风格控制(情感、方言、角色扮演、语速)、音频标签精细控制。Use when the user asks to convert text to speech, generate audio, read text aloud with a specific style/emotion/dialect, or create voice files.