io.github.Libres-coder/parseflow

编码与调试

by libres-coder

基于 MCP 的 PDF 解析 server,支持文本提取、metadata、搜索、图片处理与 TOC 目录。

什么是 io.github.Libres-coder/parseflow

基于 MCP 的 PDF 解析 server,支持文本提取、metadata、搜索、图片处理与 TOC 目录。

README

📄 ParseFlow

<div align="center">

AI 驱动的全能文档解析库

npm version MCP Server License: MIT

English | 中文

</div>

ParseFlow 是一个全面的文档解析解决方案,支持 PDFWordExcelPowerPoint图片 OCR。它提供独立的核心库和 MCP 服务器,可供 AI 助手使用。

✨ 功能特性

📄 PDF 支持

  • ✅ 多策略文本提取(原始、格式化、清理)
  • ✅ 按页或按范围提取
  • ✅ 🔐 加密 PDF 密码支持
  • ✅ 📄 PDF 合并、拆分、提取页面
  • ✅ 元数据获取、全文搜索

📝 Word / 📊 Excel / 🎯 PowerPoint

  • ✅ 文本提取和搜索
  • ✅ HTML 转换(Word)
  • ✅ 多工作表支持(Excel)
  • ✅ 幻灯片提取(PowerPoint)

🔍 OCR 图片识别

  • ✅ 支持 12 种语言
  • ✅ 图片文字提取和搜索

🧠 语义搜索

  • ✅ AI 向量嵌入
  • ✅ 智能文档搜索(无需精确关键词)

📦 批量处理

  • ✅ 并行处理多个文件
  • ✅ 目录递归扫描
  • ✅ 批量提取和搜索

🤖 MCP 服务器

  • 20 个 AI 助手工具
  • ✅ 支持 Claude Desktop、Windsurf、Cursor

📦 安装

核心库

bash
npm install parseflow-core

MCP 服务器

bash
npm install -g parseflow-mcp-server
# 或使用 npx
npx parseflow-mcp-server

🚀 快速开始

PDF 解析

typescript
import { PDFParser } from 'parseflow-core';

const parser = new PDFParser();
const text = await parser.extractText('document.pdf');
const results = await parser.search('document.pdf', '关键词');

Word 解析

typescript
import { WordParser } from 'parseflow-core';

const parser = new WordParser();
const result = await parser.extractText('report.docx');
const html = await parser.extractHTML('report.docx');

Excel 解析

typescript
import { ExcelParser } from 'parseflow-core';

const parser = new ExcelParser();
const data = await parser.extractData('spreadsheet.xlsx');
const results = await parser.searchText('data.xlsx', '收入');

PowerPoint 解析

typescript
import { PowerPointParser } from 'parseflow-core';

const parser = new PowerPointParser();
const result = await parser.extractText('presentation.pptx');
const results = await parser.searchText('slides.pptx', '关键词');

🛠️ MCP 服务器配置

Claude Desktop

claude_desktop_config.json 中添加:

json
{
  "mcpServers": {
    "parseflow": {
      "command": "npx",
      "args": ["-y", "parseflow-mcp-server"]
    }
  }
}

可用工具(23 个)

类别工具描述
PDFextract_text提取文本(支持加密 PDF)
get_metadata获取元数据
search_pdf全文搜索
extract_images提取图片
get_toc获取目录
merge_pdf合并多个 PDF
split_pdf拆分为单页
extract_pdf_pages提取指定页码
add_watermark添加文字水印
add_image_watermark添加图片水印
remove_watermark移除水印(覆盖)
Wordextract_word提取文本/HTML
search_word文本搜索
Excelextract_excel提取数据
search_excel单元格搜索
PPTextract_powerpoint提取幻灯片
search_powerpoint幻灯片搜索
OCRextract_ocr图片文字识别
search_ocrOCR 文本搜索
AIsemantic_index文档向量索引
semantic_search语义相似搜索
批量batch_extract批量提取多文件
batch_search批量搜索多文件

📈 版本历史

版本功能
v1.8.0💧 PDF 水印(文字/图片水印)
v1.7.0📦 批量处理(并行处理多文件)
v1.6.0🧠 语义搜索(AI 向量嵌入)
v1.5.0📄 PDF 合并/拆分/提取
v1.4.0🔐 加密 PDF 支持
v1.3.0🔍 OCR 图片文字识别
v1.2.0🎯 PowerPoint 支持
v1.1.0📝 Word + 📊 Excel 支持
v1.0.0📄 PDF 基础解析

🔗 链接


📄 许可证

MIT License - 详见 LICENSE


Made with ❤️ by Libres-coder

常见问题

io.github.Libres-coder/parseflow 是什么?

基于 MCP 的 PDF 解析 server,支持文本提取、metadata、搜索、图片处理与 TOC 目录。

相关 Skills

网页构建器

by anthropics

Universal
热门

面向复杂 claude.ai HTML artifact 开发,快速初始化 React + Tailwind CSS + shadcn/ui 项目并打包为单文件 HTML,适合需要状态管理、路由或多组件交互的页面。

在 claude.ai 里做复杂网页 Artifact 很省心,多组件、状态和路由都能顺手搭起来,React、Tailwind 与 shadcn/ui 组合效率高、成品也更精致。

编码与调试
未扫描114.1k

前端设计

by anthropics

Universal
热门

面向组件、页面、海报和 Web 应用开发,按鲜明视觉方向生成可直接落地的前端代码与高质感 UI,适合做 landing page、Dashboard 或美化现有界面,避开千篇一律的 AI 审美。

想把页面做得既能上线又有设计感,就用前端设计:组件到整站都能产出,难得的是能避开千篇一律的 AI 味。

编码与调试
未扫描114.1k

网页应用测试

by anthropics

Universal
热门

用 Playwright 为本地 Web 应用编写自动化测试,支持启动开发服务器、校验前端交互、排查 UI 异常、抓取截图与浏览器日志,适合调试动态页面和回归验证。

借助 Playwright 一站式验证本地 Web 应用前端功能,调 UI 时还能同步查看日志和截图,定位问题更快。

编码与调试
未扫描114.1k

相关 MCP Server

GitHub

编辑精选

by GitHub

热门

GitHub 是 MCP 官方参考服务器,让 Claude 直接读写你的代码仓库和 Issues。

这个参考服务器解决了开发者想让 AI 安全访问 GitHub 数据的问题,适合需要自动化代码审查或 Issue 管理的团队。但注意它只是参考实现,生产环境得自己加固安全。

编码与调试
83.4k

by Context7

热门

Context7 是实时拉取最新文档和代码示例的智能助手,让你告别过时资料。

它能解决开发者查找文档时信息滞后的问题,特别适合快速上手新库或跟进更新。不过,依赖外部源可能导致偶尔的数据延迟,建议结合官方文档使用。

编码与调试
52.2k

by tldraw

热门

tldraw 是让 AI 助手直接在无限画布上绘图和协作的 MCP 服务器。

这解决了 AI 只能输出文本、无法视觉化协作的痛点——想象让 Claude 帮你画流程图或白板讨论。最适合需要快速原型设计或头脑风暴的开发者。不过,目前它只是个基础连接器,你得自己搭建画布应用才能发挥全部潜力。

编码与调试
46.3k

评论