金大哥 - parseflow MCP 详情

article

README

🚀 📄 ParseFlow

ParseFlow 是一个 AI 驱动的全能文档解析库，支持 PDF、Word、Excel、PowerPoint 等多种文档格式及图片 OCR，提供核心库和 MCP 服务器，为 AI 助手赋能，助力高效文档解析。

🚀 快速开始

PDF 解析

import { PDFParser } from 'parseflow-core';

const parser = new PDFParser();
const text = await parser.extractText('document.pdf');
const results = await parser.search('document.pdf', '关键词');

Word 解析

import { WordParser } from 'parseflow-core';

const parser = new WordParser();
const result = await parser.extractText('report.docx');
const html = await parser.extractHTML('report.docx');

Excel 解析

import { ExcelParser } from 'parseflow-core';

const parser = new ExcelParser();
const data = await parser.extractData('spreadsheet.xlsx');
const results = await parser.searchText('data.xlsx', '收入');

PowerPoint 解析

import { PowerPointParser } from 'parseflow-core';

const parser = new PowerPointParser();
const result = await parser.extractText('presentation.pptx');
const results = await parser.searchText('slides.pptx', '关键词');

✨ 主要特性

📄 PDF 支持

✅ 多策略文本提取（原始、格式化、清理）
✅ 按页或按范围提取
✅ 🔐 加密 PDF 密码支持
✅ 📄 PDF 合并、拆分、提取页面
✅ 元数据获取、全文搜索

📝 Word / 📊 Excel / 🎯 PowerPoint

✅ 文本提取和搜索
✅ HTML 转换（Word）
✅ 多工作表支持（Excel）
✅ 幻灯片提取（PowerPoint）

🔍 OCR 图片识别

✅ 支持 12 种语言
✅ 图片文字提取和搜索

🧠 语义搜索

✅ AI 向量嵌入
✅ 智能文档搜索（无需精确关键词）

📦 批量处理

✅ 并行处理多个文件
✅ 目录递归扫描
✅ 批量提取和搜索

🤖 MCP 服务器

✅ 20 个 AI 助手工具
✅ 支持 Claude Desktop、Windsurf、Cursor

📦 安装指南

核心库

npm install parseflow-core

MCP 服务器

npm install -g parseflow-mcp-server
# 或使用 npx
npx parseflow-mcp-server

📚 详细文档

🛠️ MCP 服务器配置

Claude Desktop

在 claude_desktop_config.json 中添加：

{
  "mcpServers": {
    "parseflow": {
      "command": "npx",
      "args": ["-y", "parseflow-mcp-server"]
    }
  }
}

可用工具（23 个）

| 类别 | 工具 | 描述 | |------|------|------| | PDF | extract_text | 提取文本（支持加密 PDF） | | | get_metadata | 获取元数据 | | | search_pdf | 全文搜索 | | | extract_images | 提取图片 | | | get_toc | 获取目录 | | | merge_pdf | 合并多个 PDF | | | split_pdf | 拆分为单页 | | | extract_pdf_pages | 提取指定页码 | | | add_watermark | 添加文字水印 | | | add_image_watermark | 添加图片水印 | | | remove_watermark | 移除水印（覆盖） | | Word | extract_word | 提取文本/HTML | | | search_word | 文本搜索 | | Excel | extract_excel | 提取数据 | | | search_excel | 单元格搜索 | | PPT | extract_powerpoint | 提取幻灯片 | | | search_powerpoint | 幻灯片搜索 | | OCR | extract_ocr | 图片文字识别 | | | search_ocr | OCR 文本搜索 | | AI | semantic_index | 文档向量索引 | | | semantic_search | 语义相似搜索 | | 批量 | batch_extract | 批量提取多文件 | | | batch_search | 批量搜索多文件 |

📈 版本历史

| 版本 | 功能 | |------|------| | v1.8.0 | 💧 PDF 水印（文字/图片水印） | | v1.7.0 | 📦 批量处理（并行处理多文件） | | v1.6.0 | 🧠 语义搜索（AI 向量嵌入） | | v1.5.0 | 📄 PDF 合并/拆分/提取 | | v1.4.0 | 🔐 加密 PDF 支持 | | v1.3.0 | 🔍 OCR 图片文字识别 | | v1.2.0 | 🎯 PowerPoint 支持 | | v1.1.0 | 📝 Word + 📊 Excel 支持 | | v1.0.0 | 📄 PDF 基础解析 |

🔗 链接

npm Core: https://www.npmjs.com/package/parseflow-core
npm MCP: https://www.npmjs.com/package/parseflow-mcp-server
GitHub: https://github.com/Libres-coder/ParseFlow

📄 许可证

MIT License - 详见 LICENSE

Made with ❤️ by Libres-coder

parseflow