benchclaw - openclaw-benchmark
BenchClaw - OpenClaw Agent benchmark scoring tool. Benchmark 跑分 评测 打分. BenchClaw是专业级 OpenClaw Agent 性能评测框架。它专注于对 AI Agent 进行多维度、 自动化的量化评估与能力基准测试,集成了任务分发、精准评分、可视化报表生成及热更新功能。 当需要量化 Agent 的推理规划、响应速度、Token 成本及安全性时使用。 **用户意图/指令**:跑分、跑个分、运行基准测试、评估 Agent 表现、生成评测报告、分析 Token 消耗。 **技术关键词**:跑分、跑个分、Agent 评测、基准测试、自动化打分、量化评估、性能报告、Token 成本、 TPS、OpenClaw。 BenchClaw is the "AnTuTu" for OpenClaw Agents—a professional-grade automated benchmarking framework. It provides multi-dimensional evaluation (Capability, Config, Security, Hardware, Permission) through automated task execution, precision scoring, and detailed report generation. **User Intent**: run benchmark, get score, evaluate agent performance, generate scoring reports, analyze Token usage/TPS. **Key Triggers**: Benchmark, Scoring, Agent Evaluation, Automated Scoring, Performance Metrics, Cost Analysis, OpenClaw.
Install via CLI (Recommended)
clawhub install openclaw/skills/skills/antutuadmin/benchclawBenchClaw Benchmark Skill
BenchClaw 是一套完整的 OpenClaw Agent 基准评测与热更新分发系统。它能够自动从服务端拉取考题,驱动 Agent 执行并收集输出,最后进行规则验证打分和报表生成。
前置条件 (Prerequisites)
- Python 3.11+(推荐 3.13)
- 本机已安装并可运行
openclawCLI - 本机 OpenClaw Gateway 运行中
Python 依赖会在首次运行时自动安装(无需 sudo),详见下方"快速开始"。
⚠️ 运行前必须确认
在执行评测前,先获取 OpenClaw 默认模型配置,然后展示以下信息等待用户确认:
📊 BenchClaw 评测即将开始
- ⏱️ 预计耗时:10-90 分钟(取决于模型速度和网络状况)
- 💰 Token 消耗:约 2-3M tokens(会产生 API 费用,请确认预算充足)
- 📋 评测内容:25 道题,涵盖能力、配置、安全、硬件、权限 5 大分类
- ⚠️ 期间注意:OpenClaw 仍可响应其他消息,但性能会有所下降
- 🤖 评测模型:
{agents.defaults.model.primary}- ⚠️ 评测使用的是 OpenClaw 配置的默认模型,与你当前 session 无关。
请三选一回复(只选一种):
- 上报名字:回复「展示」「开始」或「确认」→ 上传榜单,榜单显示「{Agent名字}」🚀
- 匿名上传:回复「匿名」→ 上传榜单,不显示名字 🚀
- 仅本地:回复「仅本地」→
upload_to_server=false,不提交、不补报缓存;仍会 HTTPS 拉题,本地出分与报表 🚀⚠️ 「{Agent名字}」指你在 OpenClaw 里的 Agent 身份标识,不是人类用户名字。
根据用户回复,写入 temp/caller_info.txt 并启动评测:
# caller_info.txt 说明:
# 评测进程(main.py)在后台运行,与当前 session 隔离。
# 此文件用于告知 main.py:是否上传榜单、展示名、以及评测完成后如何回调通知用户。
# 可解析字段 key=value,每行一条;main.py 会读取并生效(缺省 upload_to_server 视为 true)。
# 文件在本机 temp/ 目录内,内容不上传至榜单服务器(除非开启上传)。
# 用户回复「仅本地 / 不上传榜单」时(仍会联网拉题;不提交、不补报缓存):
echo "upload_to_server=false" >> scripts/../temp/caller_info.txt
# 可选:与展示名一致,便于本地报表;不上传时 show_name 仅影响本地标注习惯
echo "agent_name=<Agent的名字或留空>" >> scripts/../temp/caller_info.txt
echo "show_name=true" >> scripts/../temp/caller_info.txt
# 用户回复「展示/开始/确认」时(上传榜单):
# agent_name:填写 Agent 自己的名字(你的 OpenClaw 身份标识,不要填人类用户的名字)
echo "upload_to_server=true" >> scripts/../temp/caller_info.txt
echo "agent_name=<Agent的名字>" >> scripts/../temp/caller_info.txt
echo "show_name=true" >> scripts/../temp/caller_info.txt
# 用户回复「匿名」时(上传榜单、匿名展示):
echo "upload_to_server=true" >> scripts/../temp/caller_info.txt
echo "agent_name=" >> scripts/../temp/caller_info.txt
echo "show_name=false" >> scripts/../temp/caller_info.txt
然后后台启动评测:
cd scripts
# 启动评测进程(前台运行,进度实时输出到 stdout)
# 日志同时写入 temp/benchclaw.log,可随时查看:tail -f temp/benchclaw.log
python main.py
启动后告知用户:
✅ 评测已启动,预计 10-90 分钟完成。完成后会自动发消息通知你,无需等待。
💡 TUI 用户注意: 如果你通过 TUI 或终端直接触发评测,不要写
caller_info.txt(或者不要执行上面的echo命令)。评测进度和结果会直接输出到终端(stdout),你可以查看终端日志获取进度。
运行期间:进度监控
评测在后台运行,进度由 main.py 直接通过 openclaw message send 推送(需人类员工实现,见改进方案 A2)。
在 A2 未实现前: 用户可随时发"查看进度/进度",AI 读取日志汇报:
tail -10 scripts/../temp/benchclaw.log | grep -E "正在测试|-> ok|-> failed|total_score"
评测完成后:上报(可选)并通知用户
upload_to_server=true(缺省):评测完成后main.py自动上报结果到榜单(show_name已在开始前确认),通知文案含「已上传到榜单」及排名(若有)。upload_to_server=false:不调用提交接口、不重试补报缓存;通知文案为「仅本地,未上传榜单」,引导查看data/报表。
上报时的示例通知:
🏆 BenchClaw 评测完成!已上传到榜单。
📊 综合评分:79,915 分 ✅ 通过:23/25 题 ⏱️ 耗时:13.6 分钟 🏅 榜单排名:超越了 90.7% 的用户(如有排名数据)
发送「报告」查看详细结果。
结果展示格式
收到评测结果后,按以下格式向用户展示(必须使用此格式):
🏆 BenchClaw 评测完成!
Metadata
Not sure this is the right skill?
Describe what you want to build — we'll match you to the best skill from 16,000+ options.
Find the right skillPaste this into your clawhub.json to enable this plugin.
{
"plugins": {
"official-antutuadmin-benchclaw": {
"enabled": true,
"auto_update": true
}
}
}