MiniMax PDF识别

minimax-pdf-ocr

by chongjie-ran

使用 MiniMax Vision API 识别 PDF/图片中的文字

3.9k效率与工作流未扫描2026年3月23日

安装

claude skill add --url github.com/openclaw/skills/tree/main/skills/chongjie-ran/minimax-pdf-ocr

文档

MiniMax OCR Skill

使用 MiniMax Vision API 识别 PDF/图片中的文字内容,支持中文和英文。

功能

  • PDF 转图片(使用 poppler)
  • MiniMax Vision API 文字识别
  • 输出 Markdown 格式

依赖

bash
# 安装 Node.js 依赖
cd minimax-pdf-ocr
npm install openai pdf2image

# 安装系统依赖
brew install poppler

使用方法

命令行

bash
# 设置 API Key
export MINIMAX_API_KEY="your-api-key"

# 运行 OCR
node pdf-ocr-minimax.js <pdf文件路径> [输出目录]

# 示例
node pdf-ocr-minimax.js ./document.pdf ./output/

作为 Skill 使用

在 JavaScript 代码中调用:

javascript
const { recognizePdf } = require('./pdf-ocr-minimax.js');

await recognizePdf('/path/to/document.pdf', './output/');

环境变量

变量说明必填
MINIMAX_API_KEYMiniMax API Key (从 platform.minimaxi.com 获取)
OUTPUT_DIR输出目录否(默认当前目录)

输出

  • 识别结果保存为 .md 文件
  • 包含所有页面的文字内容
  • 保持原有格式和段落结构

示例输出

markdown
# 文档名称

## 第 1 页

这里是第一页的文字内容...

## 第 2 页

这里是第二页的文字内容...

注意事项

相关 Skills

技能工坊

by anthropics

Universal
热门

覆盖 Skill 从创建到迭代优化全流程:起草能力、补测试提示、跑评测与基准方差分析,并持续改写内容和描述,提升效果与触发准确率。

技能工坊把技能从创建、迭代到评测串成闭环,方差分析加描述优化,特别适合把触发准确率打磨得更稳。

效率与工作流
未扫描111.8k

表格处理

by anthropics

Universal
热门

围绕 .xlsx、.xlsm、.csv、.tsv 做读写、修复、清洗、格式整理、公式计算与格式转换,适合修改现有表格、生成新报表或把杂乱数据整理成交付级电子表格。

做 Excel/CSV 相关任务很省心,能直接读写、修复、清洗和格式转换,尤其擅长把乱七八糟的表格整理成交付级文件。

效率与工作流
未扫描111.8k

Word文档

by anthropics

Universal
热门

覆盖Word/.docx文档的创建、读取、编辑与重排,适合生成报告、备忘录、信函和模板,也能处理目录、页眉页脚、页码、图片替换、查找替换、修订批注及内容提取整理。

搞定 .docx 的创建、改写与精排版,目录、批量替换、批注修订和图片更新都能自动化,做正式文档尤其省心。

效率与工作流
未扫描111.8k

相关 MCP 服务

文件系统

编辑精选

by Anthropic

热门

Filesystem 是 MCP 官方参考服务器,让 LLM 安全读写本地文件系统。

这个服务器解决了让 Claude 直接操作本地文件的痛点,比如自动整理文档或生成代码文件。适合需要自动化文件处理的开发者,但注意它只是参考实现,生产环境需自行加固安全。

效率与工作流
83.1k

by wonderwhy-er

热门

Desktop Commander 是让 AI 直接执行终端命令、管理文件和进程的 MCP 服务器。

这工具解决了 AI 无法直接操作本地环境的痛点,适合需要自动化脚本调试或文件批量处理的开发者。它能让你用自然语言指挥终端,但权限控制需谨慎,毕竟让 AI 执行 rm -rf 可不是闹着玩的。

效率与工作流
5.9k

EdgarTools

编辑精选

by dgunning

热门

EdgarTools 是无需 API 密钥即可解析 SEC EDGAR 财报的开源 Python 库。

这个工具解决了金融数据获取的痛点——直接让 AI 读取结构化财报,比如让 Claude 分析苹果的 10-K 文件。适合量化分析师或金融开发者快速构建数据管道。但注意,它依赖 SEC 网站稳定性,高峰期可能延迟。

效率与工作流
2.0k

评论