Official Verified

pdf-ocr

PDF扫描件转Word文档。支持中文OCR识别，自动裁掉页眉页脚，保留插图，彩色章节封面页保留为图片。使用百度OCR API（免费额度1000次/月）。当用户要求把扫描PDF转成文字/Word时触发。

skill-install — Terminal

Install via CLI (Recommended)

clawhub install openclaw/skills/skills/dadaniya99/pdf-ocr

Download Source Code (.zip)

PDF扫描件 OCR 转换技能 📄

配置

百度 OCR API Key: vOBOM7tO0lL8cKMJdZy453Ai
百度 OCR Secret Key: bib8MvDPTfXXdPz4JyzIyDCvCeKxtpyu
免费额度: 1000次/月（1次=1页），592页以内一次免费跑完
接口: 通用文字识别（高精度版）accurate_basic

依赖安装

pip install pymupdf python-docx pillow

使用方法

python3 {baseDir}/scripts/pdf_to_docx.py <PDF路径> [输出目录]

输出文件在 [输出目录]/xxx_全文_ocr.docx，文件较大时用脚本压缩图片：

python3 {baseDir}/scripts/compress_docx.py <docx路径> <输出路径>

处理策略

页面类型	判断方式	处理方式
正文页	默认	裁掉顶部6%（页眉）+底部4%（页脚），OCR识别文字
插图页	OCR无文字输出	保留为图片嵌入Word
彩色封面/章节页	彩色像素占比>25%	保留为图片，加灰色标注

已知限制

图文混排页（图表里有文字）：OCR会把图表内文字识别为正文，需人工替换
- 解决：用户找到问题页，告知PDF页码，截图后手动替换
白底目录页：不会被自动识别为特殊页，会被OCR识别（效果一般）
- 解决：转换后人工替换目录页为图片

实战案例（《预测之书》592页）

处理时间：约20分钟（含0.6s/页间隔）
输出原始大小：303MB（嵌入144张图片）
压缩后大小：3.4MB（图片降分辨率至600px宽，质量60%）
识别效果：正文准确率高，图表页需人工处理
每50页自动保存一次进度，防止中途崩溃

注意事项

免费版 QPS=2，脚本已加0.6秒/页间隔
裁剪比例（页眉6%/页脚4%）可在脚本顶部调整
OCR完成后建议抽查几页校对准确率
原始高清版保留在服务器，压缩版用于分发

Read Full Documentation on GitHub

Metadata

Author@dadaniya99

Stars3409

Updated2026-03-25

View Author Profile

AI Skill Finder

Not sure this is the right skill?

Describe what you want to build — we'll match you to the best skill from 16,000+ options.

Find the right skill

Add to Configuration

Paste this into your clawhub.json to enable this plugin.

{
  "plugins": {
    "official-dadaniya99-pdf-ocr": {
      "enabled": true,
      "auto_update": true
    }
  }
}

Safety NoteClawKit audits metadata but not runtime behavior. Use with caution.

Related Skills

evomap-gep

Connect any OpenClaw agent to the EvoMap collaborative evolution marketplace via the GEP-A2A protocol — no evolver required. Activate when the user or agent mentions EvoMap, wants to search for capsules or genes from other agents, publish a solution, or learn the GEP protocol. sender_id is auto-detected from MEMORY.md — each agent just saves their node ID once and the scripts handle the rest.

dadaniya99 3409

feishu-card

飞书互动卡片发送技能（国际版 Feishu 兼容）。当需要发送格式丰富的飞书卡片消息时使用。支持标题、Markdown 内容、颜色主题。关键：必须使用 schema 2.0 格式 + 双重 JSON stringify，否则国际版飞书（Feishu）无法渲染。

dadaniya99 3409

sketch-illustration

插画图片生成技能，支持多种手绘风格。使用 Imagen 3（ZenMux API）生成插图，适合流程图、功能说明、PPT配图、教程配图、知识图和手绘信息图等场景。支持四种风格：A) Sketch 极简手绘风（Notion/Linear 风格，简笔人物，冷淡低饱和）；B) Watercolor 奶油彩铅水彩风（暖色调，纸纹彩铅，适合PPT讲义）；C) Flat Vector Retro 扁平矢量复古风（黑色轮廓线，几何简化，复古配色，适合NotebookLM PPT/课程封面）；D) Doodle Infographic 白纸手绘知识图风（白纸背景、拟人角色、高信息密度、手账/课堂板书感，适合概念对比、方法论、拖延机制、知识卡片）。生成后自动上传发送到飞书。当用户要求生成插画、配图、手绘风格图、流程示意图、产品插图、PPT配图、知识图、信息图、手绘知识海报时触发此技能。

dadaniya99 3409

cn-video-gen

国产AI视频生成技能。支持通义万相（Wan2.6文生视频/图生视频）和可灵（Kling V2）。适合创意视频制作、图生视频、动态内容生成等场景。当用户要求生成视频、将图片生成动态视频、或基于描述生成视频片段时触发。

dadaniya99 3409

eudic-vocab

欧路词典生词本管理与每日测试技能。支持自动从欧路词典收藏夹出题、管理单词、删除已掌握词汇。适合每日背单词使用。

dadaniya99 3409