minimax-pdf-ocr
使用 MiniMax Vision API 识别 PDF/图片中的文字
Install via CLI (Recommended)
clawhub install openclaw/skills/skills/chongjie-ran/minimax-pdf-ocrMiniMax OCR Skill
使用 MiniMax Vision API 识别 PDF/图片中的文字内容,支持中文和英文。
功能
- PDF 转图片(使用 poppler)
- MiniMax Vision API 文字识别
- 输出 Markdown 格式
依赖
# 安装 Node.js 依赖
cd minimax-pdf-ocr
npm install openai pdf2image
# 安装系统依赖
brew install poppler
使用方法
命令行
# 设置 API Key
export MINIMAX_API_KEY="your-api-key"
# 运行 OCR
node pdf-ocr-minimax.js <pdf文件路径> [输出目录]
# 示例
node pdf-ocr-minimax.js ./document.pdf ./output/
作为 Skill 使用
在 JavaScript 代码中调用:
const { recognizePdf } = require('./pdf-ocr-minimax.js');
await recognizePdf('/path/to/document.pdf', './output/');
环境变量
| 变量 | 说明 | 必填 |
|---|---|---|
| MINIMAX_API_KEY | MiniMax API Key (从 platform.minimaxi.com 获取) | 是 |
| OUTPUT_DIR | 输出目录 | 否(默认当前目录) |
输出
- 识别结果保存为
.md文件 - 包含所有页面的文字内容
- 保持原有格式和段落结构
示例输出
# 文档名称
## 第 1 页
这里是第一页的文字内容...
## 第 2 页
这里是第二页的文字内容...
注意事项
- MiniMax M2.5 模型支持视觉理解
- 每页识别约消耗 100-500 次 token
- 建议批量处理时添加适当延迟避免限流
- API Key 获取: https://platform.minimaxi.com/user-center/basic-information/interface-key
Metadata
Not sure this is the right skill?
Describe what you want to build — we'll match you to the best skill from 16,000+ options.
Find the right skillPaste this into your clawhub.json to enable this plugin.
{
"plugins": {
"official-chongjie-ran-minimax-pdf-ocr": {
"enabled": true,
"auto_update": true
}
}
}Tags
Related Skills
career-compass
职场罗盘 by Barry — 一站式求职辅助 Skill。整合简历解析优化、公司调研(就业向)、同城职位搜索、模拟面试四大模块。输入个人信息/简历,自动生成简历优化方向、公司调研报告、招聘表单,并可进行模拟面试。
wechat-article-export
微信公众号多功能导出工具。將公眾號文章導出為長截圖(PNG)、PDF 或 Markdown,支持任選一種或多種格式。觸發詞:「導出微信文章」、「公眾號截圖」、「文章轉PDF」、「文章轉Markdown」、「微信導出」。
DocPilot
智能文档处理专家,支持文档解析、信息抽取、文档分类
AB-Agents-Vision-MiniMax
👁️ Image analysis via MiniMax VL API. Describe images, extract text from screenshots, analyze photos. Requires MiniMax Token Plan API key (free tier available).
AB-Agents-Vision
👁️ Image analysis using MiniMax VL API. Describe images, extract text from screenshots, analyze photos. Works with local files and URLs. Simple shell wrapper.