Official Verified

benchclaw - openclaw-benchmark

BenchClaw - OpenClaw Agent benchmark scoring tool. Benchmark 跑分评测打分. BenchClaw是专业级 OpenClaw Agent 性能评测框架。它专注于对 AI Agent 进行多维度、自动化的量化评估与能力基准测试，集成了任务分发、精准评分、可视化报表生成及热更新功能。当需要量化 Agent 的推理规划、响应速度、Token 成本及安全性时使用。 **用户意图/指令**：跑分、跑个分、运行基准测试、评估 Agent 表现、生成评测报告、分析 Token 消耗。 **技术关键词**：跑分、跑个分、Agent 评测、基准测试、自动化打分、量化评估、性能报告、Token 成本、 TPS、OpenClaw。 BenchClaw is the "AnTuTu" for OpenClaw Agents—a professional-grade automated benchmarking framework. It provides multi-dimensional evaluation (Capability, Config, Security, Hardware, Permission) through automated task execution, precision scoring, and detailed report generation. **User Intent**: run benchmark, get score, evaluate agent performance, generate scoring reports, analyze Token usage/TPS. **Key Triggers**: Benchmark, Scoring, Agent Evaluation, Automated Scoring, Performance Metrics, Cost Analysis, OpenClaw.

skill-install — Terminal

Install via CLI (Recommended)

clawhub install openclaw/skills/skills/antutuadmin/benchclaw

Download Source Code (.zip)

BenchClaw Benchmark Skill

BenchClaw 是一套完整的 OpenClaw Agent 基准评测与热更新分发系统。它能够自动从服务端拉取考题，驱动 Agent 执行并收集输出，最后进行规则验证打分和报表生成。

前置条件 (Prerequisites)

Python 3.11+（推荐 3.13）
本机已安装并可运行 openclaw CLI
本机 OpenClaw Gateway 运行中

Python 依赖会在首次运行时自动安装（无需 sudo），详见下方"快速开始"。

⚠️ 运行前必须确认

在执行评测前，先获取 OpenClaw 默认模型配置，然后展示以下信息等待用户确认：

📊 BenchClaw 评测即将开始

⏱️ 预计耗时：10-90 分钟（取决于模型速度和网络状况）

💰 Token 消耗：约 2-3M tokens（会产生 API 费用，请确认预算充足）

📋 评测内容：25 道题，涵盖能力、配置、安全、硬件、权限 5 大分类

⚠️ 期间注意：OpenClaw 仍可响应其他消息，但性能会有所下降

🤖 评测模型：{agents.defaults.model.primary}

⚠️ 评测使用的是 OpenClaw 配置的默认模型，与你当前 session 无关。

请三选一回复（只选一种）：

上报名字：回复「展示」「开始」或「确认」→ 上传榜单，榜单显示「{Agent名字}」🚀

匿名上传：回复「匿名」→ 上传榜单，不显示名字 🚀

仅本地：回复「仅本地」→ upload_to_server=false，不提交、不补报缓存；仍会 HTTPS 拉题，本地出分与报表 🚀

⚠️ 「{Agent名字}」指你在 OpenClaw 里的 Agent 身份标识，不是人类用户名字。

根据用户回复，写入 temp/caller_info.txt 并启动评测：

# caller_info.txt 说明：
# 评测进程（main.py）在后台运行，与当前 session 隔离。
# 此文件用于告知 main.py：是否上传榜单、展示名、以及评测完成后如何回调通知用户。
# 可解析字段 key=value，每行一条；main.py 会读取并生效（缺省 upload_to_server 视为 true）。
# 文件在本机 temp/ 目录内，内容不上传至榜单服务器（除非开启上传）。

# 用户回复「仅本地 / 不上传榜单」时（仍会联网拉题；不提交、不补报缓存）：
echo "upload_to_server=false" >> scripts/../temp/caller_info.txt
# 可选：与展示名一致，便于本地报表；不上传时 show_name 仅影响本地标注习惯
echo "agent_name=<Agent的名字或留空>" >> scripts/../temp/caller_info.txt
echo "show_name=true" >> scripts/../temp/caller_info.txt

# 用户回复「展示/开始/确认」时（上传榜单）：
# agent_name：填写 Agent 自己的名字（你的 OpenClaw 身份标识，不要填人类用户的名字）
echo "upload_to_server=true" >> scripts/../temp/caller_info.txt
echo "agent_name=<Agent的名字>" >> scripts/../temp/caller_info.txt
echo "show_name=true" >> scripts/../temp/caller_info.txt

# 用户回复「匿名」时（上传榜单、匿名展示）：
echo "upload_to_server=true" >> scripts/../temp/caller_info.txt
echo "agent_name=" >> scripts/../temp/caller_info.txt
echo "show_name=false" >> scripts/../temp/caller_info.txt

然后后台启动评测：

cd scripts
# 启动评测进程（前台运行，进度实时输出到 stdout）
# 日志同时写入 temp/benchclaw.log，可随时查看：tail -f temp/benchclaw.log
python main.py

启动后告知用户：

✅ 评测已启动，预计 10-90 分钟完成。完成后会自动发消息通知你，无需等待。

💡 TUI 用户注意： 如果你通过 TUI 或终端直接触发评测，不要写 caller_info.txt（或者不要执行上面的 echo 命令）。评测进度和结果会直接输出到终端（stdout），你可以查看终端日志获取进度。

运行期间：进度监控

评测在后台运行，进度由 main.py 直接通过 openclaw message send 推送（需人类员工实现，见改进方案 A2）。

在 A2 未实现前： 用户可随时发"查看进度/进度"，AI 读取日志汇报：

tail -10 scripts/../temp/benchclaw.log | grep -E "正在测试|-> ok|-> failed|total_score"

评测完成后：上报（可选）并通知用户

upload_to_server=true（缺省）：评测完成后 main.py 自动上报结果到榜单（show_name 已在开始前确认），通知文案含「已上传到榜单」及排名（若有）。
upload_to_server=false：不调用提交接口、不重试补报缓存；通知文案为「仅本地，未上传榜单」，引导查看 data/ 报表。

上报时的示例通知：

🏆 BenchClaw 评测完成！已上传到榜单。

📊 综合评分：79,915 分 ✅ 通过：23/25 题 ⏱️ 耗时：13.6 分钟 🏅 榜单排名：超越了 90.7% 的用户（如有排名数据）

发送「报告」查看详细结果。

结果展示格式

收到评测结果后，按以下格式向用户展示（必须使用此格式）：

🏆 BenchClaw 评测完成！

Read Full Documentation on GitHub

Metadata

Author@antutuadmin

Stars4473

Updated2026-05-01

View Author Profile

AI Skill Finder

Not sure this is the right skill?

Describe what you want to build — we'll match you to the best skill from 16,000+ options.

Find the right skill

Add to Configuration

Paste this into your clawhub.json to enable this plugin.

{
  "plugins": {
    "official-antutuadmin-benchclaw": {
      "enabled": true,
      "auto_update": true
    }
  }
}

Safety NoteClawKit audits metadata but not runtime behavior. Use with caution.