ClawKit Logo
ClawKitReliability Toolkit
Back to Registry
Official Verified developer tools Safety 5/5

skill-routing-benchmark

测试多个 Skill 描述是否会路由冲突,并生成正例、反例与负向触发语句。;use for skills, routing, benchmark workflows;do not use for 只给模糊建议, 忽略高度相近的 skill.

skill-install — Terminal

Install via CLI (Recommended)

clawhub install openclaw/skills/skills/52yuanchangxing/skill-routing-benchmark
Or

What This Skill Does

Skill 路由基准测试器 (skill-routing-benchmark) 是一个专为 AI Agent 开发者设计的评估工具。它通过分析多个 Skill 的描述文本,识别潜在的路由歧义与冲突。在 AI Agent 系统中,当 Skill 数量增加时,LLM 往往难以区分语义高度相似的功能,导致执行错误。本工具通过自动化手段生成正向触发例句、反向负面测试用例以及回归测试集,确保每个 Skill 的职责边界清晰,从而提升路由的准确度。

Installation

你可以通过 ClawHub 直接安装该 Skill。请在你的终端或 Claw 命令行中运行以下指令: clawhub install openclaw/skills/skills/52yuanchangxing/skill-routing-benchmark 安装完成后,该工具将自动挂载至你的开发环境,并可调用本地资源目录下的模板与规范文件进行分析。

Use Cases

本工具适用于以下场景:

  1. Skill 开发阶段:在编写新的 Skill 描述时,利用本工具进行预评估,防止与现有 Skill 发生语义冲突。
  2. 路由优化:当观察到 Agent 频繁选择错误的功能时,使用本工具分析原因并获取描述优化建议。
  3. 自动化测试:集成到 CI/CD 流水线中,为每一个 Skill 更新生成回归测试集,防止模型版本迭代导致的路由漂移。
  4. 边界定义:对于涉及系统变更或敏感操作的 Skill,工具能协助定义安全边界,强制要求人工审核或 dry-run。

Example Prompts

  1. “测试以下两个 Skill 描述:‘查询用户余额’和‘获取账户交易明细’,请分析它们是否存在路由冲突,并生成 5 条正向和反向的测试用例。”
  2. “我正在构建一个文件管理系统,请根据现有的 file-deletefile-archive 描述,给出修改建议,使模型能更准确地判断用户是在执行删除还是归档。”
  3. “请检查以下三个 Skill 的冲突可能性:[Skill A], [Skill B], [Skill C],并为我生成一份回归测试报告。”

Tips & Limitations

在使用过程中,建议遵循以下最佳实践:

  • 结构化输入:尽量使用 JSON 或 Markdown 格式提交 Skill 描述,这有助于模型解析。
  • 明确边界:如果你设计的 Skill 涉及高危操作(如写入、删除、发布),务必配合 dry-run 模式使用,本工具不会替代安全审计,仅提供路由层面的优化分析。
  • 局限性:本工具主要通过语义分析和基准测试辅助设计,不能完全替代真实环境下的推理压力测试。对于过于抽象的 Skill 描述,模型可能仍会产生偏差,此时应结合具体的 Prompt Engineering 技巧来强化路由权重。

Metadata

Stars3917
Views1
Updated2026-04-08
View Author Profile
AI Skill Finder

Not sure this is the right skill?

Describe what you want to build — we'll match you to the best skill from 16,000+ options.

Find the right skill
Add to Configuration

Paste this into your clawhub.json to enable this plugin.

{
  "plugins": {
    "official-52yuanchangxing-skill-routing-benchmark": {
      "enabled": true,
      "auto_update": true
    }
  }
}

Tags

#skills#routing#benchmark#quality
Safety Score: 5/5

Flags: file-read, code-execution