Official Verified

Mimo Tts Asr 26 Free

Skill by aaroncxxx

skill-install — Terminal

Install via CLI (Recommended)

clawhub install openclaw/skills/skills/aaroncxxx/mimo-tts-asr-26-free

Download Source Code (.zip)

MiMo TTS & ASR v2.99.92 Free For Now

语音合成（TTS）与语音识别（ASR）Skill。三款 TTS 模型限时免费，ASR 云端预留中。

关于作者 — 十五年老米粉，用龙虾编程，撸起袖子就是干。

ClawHub Skill vs 官方 MiMo V2.5 TTS 差异分析

官方提供的是"模型能力"，本 Skill 提供的是"工程化产品"——防限流、长文本分句、edge-tts 兜底、缓存、重试，这些生产环境必须但官方不提供的东西，全在这了。官方是引擎，本 Skill 是整车。

维度本 Skill 官方
三合一封装一个脚本统一调用 3 款 TTS 模型只给 API，不给封装脚本
edge-tts 兜底无 Key 自动降级到免费 TTS 无降级方案
防限流随机延迟 + 并发控制无客户端限流策略
长文本分句 120 字/段自动切分不处理长文本
音频缓存相同文本秒返，零消耗无缓存
异常重试 502/503/timeout 自动重试不处理
文本预处理数字/符号/格式自动规范化不处理
ASR 封装 asr.py 封装（需 GPU 或等云端开放）只开源模型，不给脚本
联合工作流 TTS + ASR 串联示例无工作流文档
开源方案指南 edge-tts/ChatTTS/GPT-SoVITS 等推荐无
批量合成 --file 逐行读取批量处理无
格式自动检测根据 -o 后缀推断格式需手动指定
默认预处理数字/符号自动规范化（默认开启）无
智能音色推荐 --recommend-voice 根据情感/语言自动选音色无
质量自检合成后自动检测空文件/静音/过短无
目录监听 --watch 自动合成新增 .txt 文件无

系统依赖

ffmpeg/ffprobe：音频预处理、分片、格式转换必需
python3：运行脚本

apt install ffmpeg  # Debian/Ubuntu
brew install ffmpeg  # macOS

配置

export MIMO_API_KEY="your-api-key"

或通过 OpenClaw 配置：

openclaw config set skills.entries.mimo-tts-asr.apiKey "your-key"

申请 Key：platform.xiaomimimo.com（当前限时免费）

🎧 在线体验：MiMo Studio 可快速试听各模型效果，无需配置。

💡 无 Key 也能用：不设 MIMO_API_KEY 时自动走 edge-tts 免费通道（仅支持预置音色模式）

环境变量

变量	默认值	说明
`MIMO_API_KEY`	—	MiMo TTS API Key（必填，或走 edge-tts 兜底）
`MIMO_ASR_KEY`	—	ASR API Key（可与 TTS 相同）
`MIMO_API_ENDPOINT`	`https://api.xiaomimimo.com/v1`	API 端点（可自定义）
`MIMO_TTS_MODEL`	`mimo-v2-audio-tts`	默认 TTS 模型名
`MIMO_VOICE_SAMPLE`	—	默认声音克隆参考音频路径
`USE_CLOUD_TTS`	`1`	设为 `0` 切换到 edge-tts 兜底

TTS — 语音合成

基础用法

python3 "{baseDir}/scripts/tts.py" "要合成的文本" -o output.wav

三款模型

模型	用途	关键参数
`tts`（默认）	内置音色 + 情感/语速控制	`-v` 音色, `-s` 风格
`voice-design`	自然语言描述生成新音色	`--voice-desc`
`voice-clone`	参考音频克隆音色	`--ref-audio`

预置音色

音色	语言	性别	风格
冰糖	中文	女	活泼少女，清脆甜美
茉莉	中文	女	知性女声，温柔稳重
苏打	中文	男	阳光少年，活力朝气
白桦	中文	男	成熟男声，沉稳大气
Mia	English	Female	Lively girl
Chloe	English	Female	Witty Grace
Milo	English	Male	Sunny boy
Dean	English	Male	Steady Gentle

💡 不设 MIMO_API_KEY 时自动走 edge-tts 免费通道（音色自动匹配）

TTS 参数速查

行内音频标签

在文本中插入精细控制： (停顿) (叹气) (笑声) (清嗓子) (耳语) (紧张) (小声) (语速加快) (深呼吸) (沉默片刻)

💡 多标签组合：开心变快 放在文本开头设置整体风格。支持任意自然语言风格短语，无固定值限制。

导演剧本级结构化输入

对于有声剧、游戏角色、角色化对话等高一致性场景，支持分层描述：

python3 "{baseDir}/scripts/tts.py" "
【人物】林黛玉，柔弱敏感，语速偏慢
【场景】葬花，暮春时节，落花满地
【指导】声音带哽咽感，气息不稳，尾音渐弱
花谢花飞花满天，红消香断有谁怜？
" -o lin_daiyu.wav

模型会将人物、场景、指导三层独立理解，保持角色音色贯穿，同时每句话的表演单独控制。

文本理解能力

Read Full Documentation on GitHub

Metadata

Author@aaroncxxx

Stars4473

Updated2026-05-01

View Author Profile

AI Skill Finder

Not sure this is the right skill?

Describe what you want to build — we'll match you to the best skill from 16,000+ options.

Find the right skill

Add to Configuration

Paste this into your clawhub.json to enable this plugin.

{
  "plugins": {
    "official-aaroncxxx-mimo-tts-asr-26-free": {
      "enabled": true,
      "auto_update": true
    }
  }
}

Safety NoteClawKit audits metadata but not runtime behavior. Use with caution.

Related Skills

how-much-token-did-this-chat-used

Track and display token usage for the current OpenClaw session and recent sessions, with cost estimation and remaining days projection. Auto-detects active model and matches billing rules dynamically. Shows: current session tokens, session cost, today's cumulative usage, last 10 session averages, 7-day usage trend, top spending sessions, credit balance with alerts, and weighted remaining days projection. Use when the user asks about token consumption, cost, usage stats, "用了多少 token" / "token 用量" / "消耗了多少" / "最近十个chat" / "credit" / "余额" / "还能用几天" / "花费" / "趋势".

aaroncxxx 4473

Empire Architecture

Skill by aaroncxxx

aaroncxxx 4473

mimo-tts-asr

Xiaomi MiMo V2.5 TTS + ASR 全能语音技能。支持高质量中英文语音合成（TTS）和语音识别（ASR）。 TTS: 三款模型（精品音色 / VoiceDesign 音色设计 / VoiceClone 音色克隆）、方言支持、情感控制、多格式输出。 ASR: 音频转文字、多语言识别、方言、Code-Switch、强噪音场景。支持 API 调用和开源模型本地部署。触发词: 语音合成 / 文字转语音 / TTS / 朗读 / 说话 / 唱歌 / 语音识别 / 转文字 / 听写 / ASR / 音色设计 / 音色克隆 / 声音克隆 / voice design / voice clone / voice / speech / read aloud / transcribe / speech-to-text / 语音转文字 / 音频转文字。 Use when: 用户要求将文字转为语音、朗读文本、生成音频、识别音频内容、将音频转为文字、设计音色、克隆音色。

aaroncxxx 4473

drop-caches-cleanup

一键清理系统内存（RAM）/ One-click system memory cleanup. 当用户说"清理内存"、"释放内存"、"一键清理"、"drop caches"、"内存太高"、"卡"、"慢" / "clear memory"、"free memory"、"memory cleanup"、"system lag" 时使用。支持 Linux drop_caches / macOS purge，分级清理，阈值检查。

aaroncxxx 4473

mimotts25

小米大模型 MiMo TTS 2.5 语音合成。支持多种预设音色（中文/英文/默认）、风格控制（情感、方言、角色扮演、语速）、音频标签精细控制。Use when the user asks to convert text to speech, generate audio, read text aloud with a specific style/emotion/dialect, or create voice files.

aaroncxxx 4473

维度	本 Skill	官方
三合一封装	一个脚本统一调用 3 款 TTS 模型	只给 API，不给封装脚本
edge-tts 兜底	无 Key 自动降级到免费 TTS	无降级方案
防限流	随机延迟 + 并发控制	无客户端限流策略
长文本分句	120 字/段自动切分	不处理长文本
音频缓存	相同文本秒返，零消耗	无缓存
异常重试	502/503/timeout 自动重试	不处理
文本预处理	数字/符号/格式自动规范化	不处理
ASR 封装	asr.py 封装（需 GPU 或等云端开放）	只开源模型，不给脚本
联合工作流	TTS + ASR 串联示例	无工作流文档
开源方案指南	edge-tts/ChatTTS/GPT-SoVITS 等推荐	无
批量合成	`--file` 逐行读取批量处理	无
格式自动检测	根据 `-o` 后缀推断格式	需手动指定
默认预处理	数字/符号自动规范化（默认开启）	无
智能音色推荐	`--recommend-voice` 根据情感/语言自动选音色	无
质量自检	合成后自动检测空文件/静音/过短	无
目录监听	`--watch` 自动合成新增 .txt 文件	无