返回 MCP 目录
public公开dns本地运行

parseflow

ParseFlow是一个AI驱动的全能文档解析库,支持PDF、Word、Excel、PPT和图片OCR,提供语义搜索和批量处理功能,并包含MCP服务器供AI助手使用。

article

README

🚀 📄 ParseFlow

ParseFlow 是一个 AI 驱动的全能文档解析库,支持 PDF、Word、Excel、PowerPoint 等多种文档格式及图片 OCR,提供核心库和 MCP 服务器,为 AI 助手赋能,助力高效文档解析。

🚀 快速开始

PDF 解析

import { PDFParser } from 'parseflow-core';

const parser = new PDFParser();
const text = await parser.extractText('document.pdf');
const results = await parser.search('document.pdf', '关键词');

Word 解析

import { WordParser } from 'parseflow-core';

const parser = new WordParser();
const result = await parser.extractText('report.docx');
const html = await parser.extractHTML('report.docx');

Excel 解析

import { ExcelParser } from 'parseflow-core';

const parser = new ExcelParser();
const data = await parser.extractData('spreadsheet.xlsx');
const results = await parser.searchText('data.xlsx', '收入');

PowerPoint 解析

import { PowerPointParser } from 'parseflow-core';

const parser = new PowerPointParser();
const result = await parser.extractText('presentation.pptx');
const results = await parser.searchText('slides.pptx', '关键词');

✨ 主要特性

📄 PDF 支持

  • ✅ 多策略文本提取(原始、格式化、清理)
  • ✅ 按页或按范围提取
  • ✅ 🔐 加密 PDF 密码支持
  • ✅ 📄 PDF 合并、拆分、提取页面
  • ✅ 元数据获取、全文搜索

📝 Word / 📊 Excel / 🎯 PowerPoint

  • ✅ 文本提取和搜索
  • ✅ HTML 转换(Word)
  • ✅ 多工作表支持(Excel)
  • ✅ 幻灯片提取(PowerPoint)

🔍 OCR 图片识别

  • ✅ 支持 12 种语言
  • ✅ 图片文字提取和搜索

🧠 语义搜索

  • ✅ AI 向量嵌入
  • ✅ 智能文档搜索(无需精确关键词)

📦 批量处理

  • ✅ 并行处理多个文件
  • ✅ 目录递归扫描
  • ✅ 批量提取和搜索

🤖 MCP 服务器

  • 20 个 AI 助手工具
  • ✅ 支持 Claude Desktop、Windsurf、Cursor

📦 安装指南

核心库

npm install parseflow-core

MCP 服务器

npm install -g parseflow-mcp-server
# 或使用 npx
npx parseflow-mcp-server

📚 详细文档

🛠️ MCP 服务器配置

Claude Desktop

claude_desktop_config.json 中添加:

{
  "mcpServers": {
    "parseflow": {
      "command": "npx",
      "args": ["-y", "parseflow-mcp-server"]
    }
  }
}

可用工具(23 个)

| 类别 | 工具 | 描述 | |------|------|------| | PDF | extract_text | 提取文本(支持加密 PDF) | | | get_metadata | 获取元数据 | | | search_pdf | 全文搜索 | | | extract_images | 提取图片 | | | get_toc | 获取目录 | | | merge_pdf | 合并多个 PDF | | | split_pdf | 拆分为单页 | | | extract_pdf_pages | 提取指定页码 | | | add_watermark | 添加文字水印 | | | add_image_watermark | 添加图片水印 | | | remove_watermark | 移除水印(覆盖) | | Word | extract_word | 提取文本/HTML | | | search_word | 文本搜索 | | Excel | extract_excel | 提取数据 | | | search_excel | 单元格搜索 | | PPT | extract_powerpoint | 提取幻灯片 | | | search_powerpoint | 幻灯片搜索 | | OCR | extract_ocr | 图片文字识别 | | | search_ocr | OCR 文本搜索 | | AI | semantic_index | 文档向量索引 | | | semantic_search | 语义相似搜索 | | 批量 | batch_extract | 批量提取多文件 | | | batch_search | 批量搜索多文件 |

📈 版本历史

| 版本 | 功能 | |------|------| | v1.8.0 | 💧 PDF 水印(文字/图片水印) | | v1.7.0 | 📦 批量处理(并行处理多文件) | | v1.6.0 | 🧠 语义搜索(AI 向量嵌入) | | v1.5.0 | 📄 PDF 合并/拆分/提取 | | v1.4.0 | 🔐 加密 PDF 支持 | | v1.3.0 | 🔍 OCR 图片文字识别 | | v1.2.0 | 🎯 PowerPoint 支持 | | v1.1.0 | 📝 Word + 📊 Excel 支持 | | v1.0.0 | 📄 PDF 基础解析 |

🔗 链接

  • npm Core: https://www.npmjs.com/package/parseflow-core
  • npm MCP: https://www.npmjs.com/package/parseflow-mcp-server
  • GitHub: https://github.com/Libres-coder/ParseFlow

📄 许可证

MIT License - 详见 LICENSE

Made with ❤️ by Libres-coder

help

运行方式说明

cloud

托管运行

托管运行通常表示这个 MCP Server 由服务方环境承载,用户一般按页面提供的连接方式或授权流程接入,不需要在本地长期启动一个 MCP 进程

  1. 打开服务方连接页
  2. 完成授权或复制端点
  3. 在 MCP 客户端中连接
terminal

本地运行 / 其它方式

本地运行通常需要用户在自己的电脑或服务器上安装依赖,把 server_config 复制到 MCP 客户端,并按 env_schema 补齐环境变量、密钥或其它配置

  1. 复制 server_config
  2. 安装所需依赖
  3. 补齐环境变量后重启客户端