ClawKit Logo
ClawKitReliability Toolkit
Back to Registry
Official Verified

Mimo Tts Asr 26 Free

Skill by aaroncxxx

skill-install — Terminal

Install via CLI (Recommended)

clawhub install openclaw/skills/skills/aaroncxxx/mimo-tts-asr-26-free
Or

MiMo TTS & ASR v2.99.92 Free For Now

语音合成(TTS)与语音识别(ASR)Skill。三款 TTS 模型限时免费,ASR 云端预留中。

关于作者 — 十五年老米粉,用龙虾编程,撸起袖子就是干。

ClawHub Skill vs 官方 MiMo V2.5 TTS 差异分析

官方提供的是"模型能力",本 Skill 提供的是"工程化产品"——防限流、长文本分句、edge-tts 兜底、缓存、重试,这些生产环境必须但官方不提供的东西,全在这了。官方是引擎,本 Skill 是整车。

维度本 Skill官方
三合一封装一个脚本统一调用 3 款 TTS 模型只给 API,不给封装脚本
edge-tts 兜底无 Key 自动降级到免费 TTS无降级方案
防限流随机延迟 + 并发控制无客户端限流策略
长文本分句120 字/段自动切分不处理长文本
音频缓存相同文本秒返,零消耗无缓存
异常重试502/503/timeout 自动重试不处理
文本预处理数字/符号/格式自动规范化不处理
ASR 封装asr.py 封装(需 GPU 或等云端开放)只开源模型,不给脚本
联合工作流TTS + ASR 串联示例无工作流文档
开源方案指南edge-tts/ChatTTS/GPT-SoVITS 等推荐
批量合成--file 逐行读取批量处理
格式自动检测根据 -o 后缀推断格式需手动指定
默认预处理数字/符号自动规范化(默认开启)
智能音色推荐--recommend-voice 根据情感/语言自动选音色
质量自检合成后自动检测空文件/静音/过短
目录监听--watch 自动合成新增 .txt 文件

系统依赖

  • ffmpeg/ffprobe:音频预处理、分片、格式转换必需
  • python3:运行脚本
apt install ffmpeg  # Debian/Ubuntu
brew install ffmpeg  # macOS

配置

export MIMO_API_KEY="your-api-key"

或通过 OpenClaw 配置:

openclaw config set skills.entries.mimo-tts-asr.apiKey "your-key"

申请 Key:platform.xiaomimimo.com(当前限时免费)

🎧 在线体验MiMo Studio 可快速试听各模型效果,无需配置。

💡 无 Key 也能用:不设 MIMO_API_KEY 时自动走 edge-tts 免费通道(仅支持预置音色模式)

环境变量

变量默认值说明
MIMO_API_KEYMiMo TTS API Key(必填,或走 edge-tts 兜底)
MIMO_ASR_KEYASR API Key(可与 TTS 相同)
MIMO_API_ENDPOINThttps://api.xiaomimimo.com/v1API 端点(可自定义)
MIMO_TTS_MODELmimo-v2-audio-tts默认 TTS 模型名
MIMO_VOICE_SAMPLE默认声音克隆参考音频路径
USE_CLOUD_TTS1设为 0 切换到 edge-tts 兜底

TTS — 语音合成

基础用法

python3 "{baseDir}/scripts/tts.py" "要合成的文本" -o output.wav

三款模型

模型用途关键参数
tts(默认)内置音色 + 情感/语速控制-v 音色, -s 风格
voice-design自然语言描述生成新音色--voice-desc
voice-clone参考音频克隆音色--ref-audio

预置音色

音色语言性别风格
冰糖中文活泼少女,清脆甜美
茉莉中文知性女声,温柔稳重
苏打中文阳光少年,活力朝气
白桦中文成熟男声,沉稳大气
MiaEnglishFemaleLively girl
ChloeEnglishFemaleWitty Grace
MiloEnglishMaleSunny boy
DeanEnglishMaleSteady Gentle

💡 不设 MIMO_API_KEY 时自动走 edge-tts 免费通道(音色自动匹配)

TTS 参数速查

行内音频标签

在文本中插入精细控制: (停顿) (叹气) (笑声) (清嗓子) (耳语) (紧张) (小声) (语速加快) (深呼吸) (沉默片刻)

💡 多标签组合开心 变快 放在文本开头设置整体风格。支持任意自然语言风格短语,无固定值限制。

导演剧本级结构化输入

对于有声剧、游戏角色、角色化对话等高一致性场景,支持分层描述:

python3 "{baseDir}/scripts/tts.py" "
【人物】林黛玉,柔弱敏感,语速偏慢
【场景】葬花,暮春时节,落花满地
【指导】声音带哽咽感,气息不稳,尾音渐弱
花谢花飞花满天,红消香断有谁怜?
" -o lin_daiyu.wav

模型会将人物、场景、指导三层独立理解,保持角色音色贯穿,同时每句话的表演单独控制。

文本理解能力

Metadata

Author@aaroncxxx
Stars4473
Views0
Updated2026-05-01
View Author Profile
AI Skill Finder

Not sure this is the right skill?

Describe what you want to build — we'll match you to the best skill from 16,000+ options.

Find the right skill
Add to Configuration

Paste this into your clawhub.json to enable this plugin.

{
  "plugins": {
    "official-aaroncxxx-mimo-tts-asr-26-free": {
      "enabled": true,
      "auto_update": true
    }
  }
}
Safety NoteClawKit audits metadata but not runtime behavior. Use with caution.

Related Skills

how-much-token-did-this-chat-used

Track and display token usage for the current OpenClaw session and recent sessions, with cost estimation and remaining days projection. Auto-detects active model and matches billing rules dynamically. Shows: current session tokens, session cost, today's cumulative usage, last 10 session averages, 7-day usage trend, top spending sessions, credit balance with alerts, and weighted remaining days projection. Use when the user asks about token consumption, cost, usage stats, "用了多少 token" / "token 用量" / "消耗了多少" / "最近十个chat" / "credit" / "余额" / "还能用几天" / "花费" / "趋势".

aaroncxxx 4473

Empire Architecture

Skill by aaroncxxx

aaroncxxx 4473

mimo-tts-asr

Xiaomi MiMo V2.5 TTS + ASR 全能语音技能。支持高质量中英文语音合成(TTS)和语音识别(ASR)。 TTS: 三款模型(精品音色 / VoiceDesign 音色设计 / VoiceClone 音色克隆)、方言支持、情感控制、多格式输出。 ASR: 音频转文字、多语言识别、方言、Code-Switch、强噪音场景。支持 API 调用和开源模型本地部署。 触发词: 语音合成 / 文字转语音 / TTS / 朗读 / 说话 / 唱歌 / 语音识别 / 转文字 / 听写 / ASR / 音色设计 / 音色克隆 / 声音克隆 / voice design / voice clone / voice / speech / read aloud / transcribe / speech-to-text / 语音转文字 / 音频转文字。 Use when: 用户要求将文字转为语音、朗读文本、生成音频、识别音频内容、将音频转为文字、设计音色、克隆音色。

aaroncxxx 4473

drop-caches-cleanup

一键清理系统内存(RAM)/ One-click system memory cleanup. 当用户说"清理内存"、"释放内存"、"一键清理"、"drop caches"、"内存太高"、"卡"、"慢" / "clear memory"、"free memory"、"memory cleanup"、"system lag" 时使用。 支持 Linux drop_caches / macOS purge,分级清理,阈值检查。

aaroncxxx 4473

mimotts25

小米大模型 MiMo TTS 2.5 语音合成。支持多种预设音色(中文/英文/默认)、风格控制(情感、方言、角色扮演、语速)、音频标签精细控制。Use when the user asks to convert text to speech, generate audio, read text aloud with a specific style/emotion/dialect, or create voice files.

aaroncxxx 4473