ClawKit Logo
ClawKitReliability Toolkit
Back to Registry
Official Verified

video-transcript

视频/音频转录 → 优化润色 → 多平台发布稿。使用 faster-whisper 转录音视频,自动修正错误、提取金句、生成知乎/微信/小红书等多平台文章。Use when user wants to transcribe video/audio, convert speech to text, or create multi-platform articles from video content.

skill-install — Terminal

Install via CLI (Recommended)

clawhub install openclaw/skills/skills/artminding/video-transcript-workflow
Or

SKILL.md - 视频转录与内容优化

视频/音频转录 → 优化润色 → 多平台发布稿的完整工作流。

设计原则:最小化用户等待,最大化自动化。


触发条件

用户请求:

  • 转录视频/音频
  • 视频转文字
  • 整理录音内容
  • 制作知乎/微信文章
  • 或明确提出使用此技能

工作流程

阶段1:前置确认(转录开始前)

立即询问,不等转录:

📹 已收到视频,转录前请确认以下信息:

📋 推测信息:
• 主题:[从文件名/上下文推测]
• 受众:[推测]
• 风格:知乎理性风 / 微信故事风 / 两者都要
• 输出:逐字稿 + 优化版 + 知乎文章 + 微信文章

⏱️ 3分钟无回应,我将使用上述推测自动继续。
💬 有修改请直接回复,如"主题改为xxx"或"只要知乎文章"。
🚪 您可以先离开,转录完成后我会通知您。

推测来源:

来源提取信息
文件名产品经理入门教程.mp4 → 主题:产品经理入门
用户历史偏好记录在 MEMORY.md,如"偏好知乎理性风格"
上下文对话用户之前提到的主题/受众
视频元数据时长、分辨率等(如有)

超时规则:

  • 等待 3分钟
  • 无回应 → 使用推测信息自动继续
  • 有回应 → 更新推测,继续

阶段2:后台转录(用户可离开)

默认设置:

  • 模型:Whisper small(平衡速度与质量)
  • 语言:中文(zh
  • 输出:带时间码的逐字稿

执行命令:

python transcribe_simple.py <视频文件路径> small

用户提示:

🔄 转录中... 预计 5-15 分钟
您可以先离开,完成后我会通知您。

输出文件: {视频名}_转录.txt


阶段3:自动优化(用户无需等待)

转录完成后,自动进行以下处理:

3.1 错误识别与修正

自动修正(高置信度):

  • 常见同音字(已 → 以、在 → 再 等)
  • 标准术语拼写(TensorFlow, PyTorch, GitHub 等)
  • 明显的识别错误

记录待确认(低置信度):

  • 人名/地名/机构名
  • 专业术语(需结合上下文判断)
  • 数字/日期

3.2 文本润色

  • 修正口语化表达(保留原意,提升流畅度)
  • 删除冗余填充词(然后、那个、就是、呃等)
  • 调整语序使逻辑更清晰

3.3 知识补充(联网搜索)

  • 遇到专业术语:使用 web_searchweb_fetch 查找权威解释
  • 重要概念:在首次出现处添加简短括号注释(≤20字)
  • 需深入的内容:文末添加"背景知识"小节

3.4 格式优化

  • 关键词加粗:核心概念、重要术语
  • 重点语句加粗:需要读者注意的句子
  • 段落层级:使用二级/三级标题分隔内容模块
  • 时间码保留:每个段落开头标注起始时间码

3.5 金句提取

金句标准:

类型定义示例
经验性可迁移的实践智慧"做了十年程序员,我发现最重要的不是语言本身,而是解决问题的思路。"
知识性值得记忆的理论/数据"根据研究,人类专注力的黄金时长是25分钟,这就是番茄钟的由来。"
判断性独到观点或洞察"技术本身不会淘汰人,会用技术的人才会淘汰不会用的人。"

提取规则:

  • 每篇提取 3-8 条金句
  • 单独列出在文末"金句摘录"区域
  • 同时在正文中用 **加粗** 标记

3.6 生成多平台文章

  • 知乎文章(理性 + 经验 + 科学 + 专业)
  • 微信文章(故事感 + 深度 + 专业)
  • 小红书文章(极简 + 视觉化 + 话题标签)

阶段4:输出 + 可审核

输出格式:

✅ 转录完成!已自动生成以下文件:

📁 输出文件:
• {视频名}_转录.txt(原始逐字稿)
• {视频名}_优化版.md(优化润色版)
• {视频名}_知乎.md(知乎发布稿)
• {视频名}_微信.md(微信公众号发布稿)
• {视频名}_小红书.md(小红书发布稿,极简版)

📝 自动修正的内容(如不同意请告诉我):
| 时间码 | 原文 | 修正为 | 原因 |
|--------|------|--------|------|
| [02:35] | Tensor Flow | TensorFlow | 标准拼写 |
| [05:12] | 皮托克 | PyTorch | 术语修正 |

💡 如需调整任何内容,随时告诉我。

用户可选操作:

  • 直接使用(无需回复)
  • 要求修改("第3段的术语解释不对,应该是...")
  • 重新生成某部分("微信文章太长了,缩短到1500字")

输出文件格式

优化版逐字稿

字数对照表:

音视频时长字数要求
20-30分钟4500-7500字
30-60分钟7500-12000字
60-90分钟12000-18000字
90-120分钟18000-24000字
120-150分钟24000-30000字
150分钟以上30000-37500字

说明: 优化版保留完整内容,字数约为原始转录的1.2-1.5倍(因添加术语解释、金句标注、背景知识等)

# {视频标题} - 优化版逐字稿

> 视频时长:XX分钟 | 主题:XXX | 受众:XXX

---

## 一、{章节标题}
[时间码起] {内容}

**关键术语**:XXX(简短解释)

{段落内容,关键词加粗}

> 💡 **金句**:{原话摘录}

---

## 二、{章节标题}
...

---

## 金句摘录

1. {金句1}
2. {金句2}
3. {金句3}

---

## 背景知识(可选)

### {术语/概念}
{详细解释,来自联网搜索}

---

*逐字稿生成时间:{日期} | 转录模型:Whisper small*

知乎文章

风格定位: 理性 + 经验 + 科学 + 专业

写作规范:

  • 标题:提问式或观点式,引发思考
  • 开头:提出问题或现象,吸引阅读
  • 正文:逻辑递进,论点 + 论据 + 案例
  • 结尾:总结 + 行动建议或开放讨论
  • 篇幅:根据音视频时长动态调整

Metadata

Stars4473
Views0
Updated2026-05-01
View Author Profile
AI Skill Finder

Not sure this is the right skill?

Describe what you want to build — we'll match you to the best skill from 16,000+ options.

Find the right skill
Add to Configuration

Paste this into your clawhub.json to enable this plugin.

{
  "plugins": {
    "official-artminding-video-transcript-workflow": {
      "enabled": true,
      "auto_update": true
    }
  }
}
Safety NoteClawKit audits metadata but not runtime behavior. Use with caution.