Official Verified

minimax-pdf-ocr

使用 MiniMax Vision API 识别 PDF/图片中的文字

skill-install — Terminal

Install via CLI (Recommended)

clawhub install openclaw/skills/skills/chongjie-ran/minimax-pdf-ocr

Download Source Code (.zip)

MiniMax OCR Skill

使用 MiniMax Vision API 识别 PDF/图片中的文字内容，支持中文和英文。

功能

PDF 转图片（使用 poppler）
MiniMax Vision API 文字识别
输出 Markdown 格式

依赖

# 安装 Node.js 依赖
cd minimax-pdf-ocr
npm install openai pdf2image

# 安装系统依赖
brew install poppler

使用方法

命令行

# 设置 API Key
export MINIMAX_API_KEY="your-api-key"

# 运行 OCR
node pdf-ocr-minimax.js <pdf文件路径> [输出目录]

# 示例
node pdf-ocr-minimax.js ./document.pdf ./output/

作为 Skill 使用

在 JavaScript 代码中调用：

const { recognizePdf } = require('./pdf-ocr-minimax.js');

await recognizePdf('/path/to/document.pdf', './output/');

环境变量

变量	说明	必填
MINIMAX_API_KEY	MiniMax API Key (从 platform.minimaxi.com 获取)	是
OUTPUT_DIR	输出目录	否（默认当前目录）

输出

识别结果保存为 .md 文件
包含所有页面的文字内容
保持原有格式和段落结构

示例输出

# 文档名称

## 第 1 页

这里是第一页的文字内容...

## 第 2 页

这里是第二页的文字内容...

注意事项

MiniMax M2.5 模型支持视觉理解
每页识别约消耗 100-500 次 token
建议批量处理时添加适当延迟避免限流
API Key 获取: https://platform.minimaxi.com/user-center/basic-information/interface-key

Read Full Documentation on GitHub

Metadata

Author@chongjie-ran

Stars3683

Updated2026-04-01

View Author Profile

AI Skill Finder

Not sure this is the right skill?

Describe what you want to build — we'll match you to the best skill from 16,000+ options.

Find the right skill

Add to Configuration

Paste this into your clawhub.json to enable this plugin.

{
  "plugins": {
    "official-chongjie-ran-minimax-pdf-ocr": {
      "enabled": true,
      "auto_update": true
    }
  }
}

Related Skills

career-compass

职场罗盘 by Barry — 一站式求职辅助 Skill。整合简历解析优化、公司调研（就业向）、同城职位搜索、模拟面试四大模块。输入个人信息/简历，自动生成简历优化方向、公司调研报告、招聘表单，并可进行模拟面试。

barry0-0 4473

wechat-article-export

微信公众号多功能导出工具。將公眾號文章導出為長截圖（PNG）、PDF 或 Markdown，支持任選一種或多種格式。觸發詞：「導出微信文章」、「公眾號截圖」、「文章轉PDF」、「文章轉Markdown」、「微信導出」。

benzking 4473

DocPilot

智能文档处理专家，支持文档解析、信息抽取、文档分类

ankylala 4473

AB-Agents-Vision-MiniMax

👁️ Image analysis via MiniMax VL API. Describe images, extract text from screenshots, analyze photos. Requires MiniMax Token Plan API key (free tier available).

alexburrstudio 4473

AB-Agents-Vision

👁️ Image analysis using MiniMax VL API. Describe images, extract text from screenshots, analyze photos. Works with local files and URLs. Simple shell wrapper.