minimax-pdf-ocr

by chongjie-ran

使用 MiniMax Vision API 识别 PDF/图片中的文字

View Chinese version with editor review

安装

claude skill add --url github.com/openclaw/skills/tree/main/skills/chongjie-ran/minimax-pdf-ocr

文档

MiniMax OCR Skill

使用 MiniMax Vision API 识别 PDF/图片中的文字内容,支持中文和英文。

功能

  • PDF 转图片(使用 poppler)
  • MiniMax Vision API 文字识别
  • 输出 Markdown 格式

依赖

bash
# 安装 Node.js 依赖
cd minimax-pdf-ocr
npm install openai pdf2image

# 安装系统依赖
brew install poppler

使用方法

命令行

bash
# 设置 API Key
export MINIMAX_API_KEY="your-api-key"

# 运行 OCR
node pdf-ocr-minimax.js <pdf文件路径> [输出目录]

# 示例
node pdf-ocr-minimax.js ./document.pdf ./output/

作为 Skill 使用

在 JavaScript 代码中调用:

javascript
const { recognizePdf } = require('./pdf-ocr-minimax.js');

await recognizePdf('/path/to/document.pdf', './output/');

环境变量

变量说明必填
MINIMAX_API_KEYMiniMax API Key (从 platform.minimaxi.com 获取)
OUTPUT_DIR输出目录否(默认当前目录)

输出

  • 识别结果保存为 .md 文件
  • 包含所有页面的文字内容
  • 保持原有格式和段落结构

示例输出

markdown
# 文档名称

## 第 1 页

这里是第一页的文字内容...

## 第 2 页

这里是第二页的文字内容...

注意事项