skill-routing-benchmark
测试多个 Skill 描述是否会路由冲突,并生成正例、反例与负向触发语句。;use for skills, routing, benchmark workflows;do not use for 只给模糊建议, 忽略高度相近的 skill.
Install via CLI (Recommended)
clawhub install openclaw/skills/skills/52yuanchangxing/skill-routing-benchmarkWhat This Skill Does
Skill 路由基准测试器 (skill-routing-benchmark) 是一个专为 AI Agent 开发者设计的评估工具。它通过分析多个 Skill 的描述文本,识别潜在的路由歧义与冲突。在 AI Agent 系统中,当 Skill 数量增加时,LLM 往往难以区分语义高度相似的功能,导致执行错误。本工具通过自动化手段生成正向触发例句、反向负面测试用例以及回归测试集,确保每个 Skill 的职责边界清晰,从而提升路由的准确度。
Installation
你可以通过 ClawHub 直接安装该 Skill。请在你的终端或 Claw 命令行中运行以下指令:
clawhub install openclaw/skills/skills/52yuanchangxing/skill-routing-benchmark
安装完成后,该工具将自动挂载至你的开发环境,并可调用本地资源目录下的模板与规范文件进行分析。
Use Cases
本工具适用于以下场景:
- Skill 开发阶段:在编写新的 Skill 描述时,利用本工具进行预评估,防止与现有 Skill 发生语义冲突。
- 路由优化:当观察到 Agent 频繁选择错误的功能时,使用本工具分析原因并获取描述优化建议。
- 自动化测试:集成到 CI/CD 流水线中,为每一个 Skill 更新生成回归测试集,防止模型版本迭代导致的路由漂移。
- 边界定义:对于涉及系统变更或敏感操作的 Skill,工具能协助定义安全边界,强制要求人工审核或 dry-run。
Example Prompts
- “测试以下两个 Skill 描述:‘查询用户余额’和‘获取账户交易明细’,请分析它们是否存在路由冲突,并生成 5 条正向和反向的测试用例。”
- “我正在构建一个文件管理系统,请根据现有的
file-delete和file-archive描述,给出修改建议,使模型能更准确地判断用户是在执行删除还是归档。” - “请检查以下三个 Skill 的冲突可能性:[Skill A], [Skill B], [Skill C],并为我生成一份回归测试报告。”
Tips & Limitations
在使用过程中,建议遵循以下最佳实践:
- 结构化输入:尽量使用 JSON 或 Markdown 格式提交 Skill 描述,这有助于模型解析。
- 明确边界:如果你设计的 Skill 涉及高危操作(如写入、删除、发布),务必配合
dry-run模式使用,本工具不会替代安全审计,仅提供路由层面的优化分析。 - 局限性:本工具主要通过语义分析和基准测试辅助设计,不能完全替代真实环境下的推理压力测试。对于过于抽象的 Skill 描述,模型可能仍会产生偏差,此时应结合具体的 Prompt Engineering 技巧来强化路由权重。
Metadata
Not sure this is the right skill?
Describe what you want to build — we'll match you to the best skill from 16,000+ options.
Find the right skillPaste this into your clawhub.json to enable this plugin.
{
"plugins": {
"official-52yuanchangxing-skill-routing-benchmark": {
"enabled": true,
"auto_update": true
}
}
}Tags
Flags: file-read, code-execution
Related Skills
verify-before-done
Prevent premature completion claims, repeated same-pattern retries, and weak handoffs. Use this skill to improve verification, strategy switching, and blocked-task reporting without changing personality or tone.
evidence-gap-mapper
在报告、方案或演示稿中定位结论先行但证据不足的位置,并给出补证优先级。;use for evidence, gap-analysis, research workflows;do not use for 伪造数据支撑结论, 忽略高风险假设.
skill-gap-finder
扫描现有 Skill 套装,找重复、缺口、职责冲突和最该补的空位。;use for skills, bundle, analysis workflows;do not use for 臆造目录内容, 直接删除 skill.
context-guardian
Proactive context monitoring with smart 3-level alerts. Know when to restart before quality degrades.
astrai-inference-router
Route all LLM calls through Astrai for 40%+ cost savings with intelligent routing and privacy controls