ClawKit Logo
ClawKitReliability Toolkit
Back to Registry
Official Verified

darwin-skill

Autonomous skill optimizer inspired by Karpathy's autoresearch. Evaluates SKILL.md files using an 8-dimension rubric (structure + effectiveness), runs hill-climbing with git version control, and validates improvements through test prompts. Use when user mentions "优化skill", "skill评分", "自动优化", "auto optimize skills", "skill质量检查", "这个skill写得不好", "帮我改改skill", "skill怎么样", "提升skill质量", "skill review", "skill打分".

skill-install — Terminal

Install via CLI (Recommended)

clawhub install openclaw/skills/skills/alchaincyf/darwin-skill
Or

达尔文.skill

借鉴 Karpathy autoresearch 的自主实验循环,对 skills 进行持续优化。 核心理念:评估 → 改进 → 实测验证 → 人类确认 → 保留或回滚


设计哲学

autoresearch 的精髓:

  1. 单一可编辑资产 — 每次只改一个 SKILL.md
  2. 双重评估 — 结构评分(静态分析)+ 效果验证(跑测试看输出)
  3. 棘轮机制 — 只保留改进,自动回滚退步
  4. 独立评分 — 评分用子agent,避免「自己改自己评」的偏差
  5. 人在回路 — 每个skill优化完后暂停,用户确认再继续

与纯结构审查的区别:不只看 SKILL.md 写得规不规范,更看改完后实际跑出来的效果是否更好


评估 Rubric(8维度,总分100)

结构维度(60分)— 静态分析

#维度权重评分标准
1Frontmatter质量8name规范、description包含做什么+何时用+触发词、≤1024字符
2工作流清晰度15步骤明确可执行、有序号、每步有明确输入/输出
3边界条件覆盖10处理异常情况、有fallback路径、错误恢复
4检查点设计7关键决策前有用户确认、防止自主失控
5指令具体性15不模糊、有具体参数/格式/示例、可直接执行
6资源整合度5references/scripts/assets引用正确、路径可达

效果维度(40分)— 需要实测

#维度权重评分标准
7整体架构15结构层次清晰、不冗余不遗漏、与花叔生态一致
8实测表现25用测试prompt跑一遍,输出质量是否符合skill宣称的能力

评分规则

  • 维度1-7:每个维度打 1-10 分,乘以权重得到该维度得分
  • 维度8(实测表现):跑2-3个测试prompt,按输出质量打1-10分
  • 总分 = Σ(维度分 × 权重) / 10,满分100
  • 改进后总分必须 严格高于 改进前才保留

关于「实测表现」维度

这是与纯结构评分最大的区别。评分方式:

  1. 为每个skill设计2-3个典型用户prompt(不是边缘case,是最常见的使用场景)
  2. 用子agent执行:一个带skill跑,一个不带skill跑(baseline)
  3. 对比输出质量,从以下角度打分:
    • 输出是否完成了用户意图?
    • 相比不带skill的baseline,质量提升明显吗?
    • 有没有skill引入的负面影响(过度冗余、跑偏、格式奇怪)?

如果无法跑子agent(时间/资源限制),可以退化为「干跑验证」:读完skill后模拟一个典型prompt的执行思路,判断流程是否合理。但要在results.tsv中标注 dry_run


自主优化循环

Phase 0: 初始化

1. 确认优化范围:
   - 全部skills → 扫描 .claude/skills/*/SKILL.md
   - 指定skills → 用户指定列表
2. 创建 git 分支:auto-optimize/YYYYMMDD-HHMM
3. 初始化 results.tsv(如不存在)
4. 读取现有 results.tsv 了解历史优化记录

Phase 0.5: 测试Prompt设计

在评估之前,为每个skill设计测试prompt。这步很关键——没有测试prompt,「实测表现」维度就打不了分。

for each skill:
  1. 读取 SKILL.md,理解它做什么
  2. 设计2-3个测试prompt,覆盖:
     - 最典型的使用场景(happy path)
     - 一个稍复杂或有歧义的场景
  3. 保存到 skill目录/test-prompts.json:
     [
       {"id": 1, "prompt": "用户会说的话", "expected": "期望输出的简短描述"},
       {"id": 2, "prompt": "...", "expected": "..."}
     ]

展示所有测试prompt给用户,确认后再进入评估。测试prompt的质量决定了优化方向是否正确。

Phase 1: 基线评估(Baseline)

for each skill in 优化范围:

  # 结构评分(主agent可以做)
  1. 读取 SKILL.md 全文
  2. 按维度1-7逐项打分(附简短理由)

  # 效果评分(用子agent做,独立于主agent)
  3. 对每个测试prompt,spawn子agent:
     - with_skill: 带着SKILL.md执行测试prompt
     - baseline: 不带skill执行同一prompt
  4. 对比两组输出,打维度8的分

  # 汇总
  5. 计算加权总分
  6. 记录到 results.tsv

如果子agent不可用(超时、环境限制),维度8用干跑验证打分,标注 dry_run。不要因为跑不了测试就跳过这个维度——哪怕是模拟推演也比完全不看效果好。

基线评估完成后,展示评分卡:

Metadata

Stars4473
Views0
Updated2026-05-01
View Author Profile
AI Skill Finder

Not sure this is the right skill?

Describe what you want to build — we'll match you to the best skill from 16,000+ options.

Find the right skill
Add to Configuration

Paste this into your clawhub.json to enable this plugin.

{
  "plugins": {
    "official-alchaincyf-darwin-skill": {
      "enabled": true,
      "auto_update": true
    }
  }
}
Safety NoteClawKit audits metadata but not runtime behavior. Use with caution.

Related Skills

andrej-karpathy-perspective

Andrej Karpathy的思维框架与表达方式。基于20+篇博文、16段深度访谈、100+条X帖子的系统蒸馏, 提炼6个核心心智模型、8条决策启发式、完整的中文输出适配和经典句式速查。 用途:作为思维顾问,用Karpathy的视角分析AI技术可靠性、学习方法、行业趋势、产品设计。 当用户提到「用Karpathy的视角」「Karpathy会怎么看」「卡帕西」「karpathy模式」时使用。 也适用于:Software 2.0/3.0讨论、vibe coding话题、神经网络训练、AI炒作判断、LLM能力边界。 即使用户只是说「从工程现实主义角度」「march of nines」「构建即理解」「锯齿状智能」也可触发。 不在用户只是普通问AI相关问题时触发——只在明确想要Karpathy式思维框架时激活。

alchaincyf 4473

mrbeast-perspective

MrBeast(Jimmy Donaldson)的内容创造操作系统。基于泄露的36页内部培训手册、 6个深度播客、决策记录和外部批评的深度调研,提炼6个核心心智模型、8条决策启发式、 完整的标题/缩略图/Hook/节奏公式,和4个可运行的内容分析脚本。 激活后沉浸式扮演MrBeast,直接以「我」的视角给出内容创作建议。 当用户提到「用MrBeast的视角」「MrBeast会怎么做」「Beast模式」「mrbeast perspective」时使用。 即使用户只是说「视频CTR怎么提升」「标题不够吸引人」「retention曲线怎么优化」「缩略图要改吗」也应触发。 不要在用户只是说「内容创作建议」「怎么做内容」等一般性问题时触发——只在涉及视频优化、标题/缩略图/Hook/留存率等YouTube方法论时激活。

alchaincyf 4473

ilya-sutskever-perspective

Ilya Sutskever的思维框架与表达方式。基于12段一手对话、9篇学术论文、10小时宣誓证词、 27篇推荐阅读清单和14个权威二手来源的深度调研, 提炼6个核心心智模型、8条决策启发式和完整的表达DNA。 用途:作为思维顾问,用Ilya的视角分析AI技术方向、安全策略、研究品味。 当用户提到「用Ilya的视角」「Ilya会怎么看」「Ilya模式」「ilya perspective」 「sutskever perspective」时使用。 即使用户只是说「帮我用Ilya的角度想想」「如果Ilya会怎么做」「切换到Ilya」也应触发。

alchaincyf 4473

nuwa-skill

Nuwa (女娲): Input any name, auto-research → extract thinking frameworks → generate a runnable perspective skill. Uses multi-agent parallel research, mental model extraction, and expression DNA analysis to create skills that "think like that person." Trigger: "create a perspective skill for X", "distill X", "nuwa", "make a skill for X", "X's thinking framework"

alchaincyf 4473

paul-graham-perspective

Paul Graham的思维框架与表达方式。基于200+篇essays、12个播客/访谈、 Twitter/X分析、7位核心批评者视角和完整人生时间线的深度调研, 提炼5个核心心智模型、8条决策启发式和完整的表达DNA。 用途:作为思维顾问,用PG的视角分析创业、写作、产品和人生选择。 当用户提到「用PG的视角」「Paul Graham会怎么看」「PG模式」「paul graham perspective」时使用。 即使用户只是说「帮我用PG的角度想想」「如果PG会怎么做」「切换到PG」也应触发。

alchaincyf 4473