返回 MCP 目录
public公开dns本地运行

zotero-chunk-mcp

DeepZotero是一个为Zotero文献库提供语义搜索功能的工具。它通过提取PDF中的文本、表格和图像,进行分块、嵌入并存储在ChromaDB中,最终通过MCP服务器向Claude Code等客户端提供13种语义搜索、布尔搜索、表格/图像搜索、上下文扩展、引文图查询、索引管理和成本跟踪工具。

article

README

🚀 大语言模型视觉方法分析 - 完整报告

本报告主要评估了大语言模型(LLM)视觉方法(Claude Haiku + Sonnet)在学术表格提取任务中的性能,并探究了尽管其准确率更高,但在流程中未被采用的原因。

🚀 快速开始

本报告聚焦于大语言模型视觉方法在学术表格提取中的表现,通过对比LLM方法和传统方法的各项指标,分析LLM方法未被流程选用的原因,并给出相应的改进建议。

✨ 主要特性

  • 显著的性能优势:LLM方法在表格提取的准确率上远超传统方法。
  • 深入的问题分析:剖析了LLM方法未被流程选用的根本原因,以及存在的不同失败模式。
  • 全面的报告体系:包含执行摘要、详细分析报告和查询结果等多个文件,提供丰富的数据和分析。
  • 实用的改进建议:针对发现的问题给出了优先级排序的建议,有望提升表格提取的质量。

📦 安装指南

文档中未提及安装相关内容,故跳过此章节。

💻 使用示例

文档中未提供代码示例,故跳过此章节。

📚 详细文档

关键发现

1. LLM方法表现显著更优

  • LLM平均准确率:76.7%(87次运行)
  • 传统方法平均准确率:20.6%(1,131次运行)
  • 优势:高出56.1个百分点
  • 完美提取(100%):LLM为25.3%,传统方法约为4%
  • 优秀提取(>95%):LLM为27.6%,传统方法约为18%

2. LLM方法未被流程选用

  • LLM结果计算:在44个表格上进行了87次方法运行
  • LLM结果使用:0个方法被选为最终结果
  • 流程获胜方法:40个表格中有36个使用了single_point_hotspot:rawdict(平均准确率8.07%)
  • 根本原因pipeline_weights.json中的置信乘数过低

3. 存在两种不同的失败模式

  • 格式良好的表格(8/10篇论文):LLM具有55 - 78个百分点的优势
  • 提取损坏的表格(huang - emd - 1998):LLM落后13.6个百分点(尝试推理,但结构损坏时失败)
  • 数学符号表格(friston - life):两种方法表现都较弱(真实值准确率为0%),LLM得分为44.62%

4. 真实值对齐问题

  • Friston表格:LLM得分为44.62%,真实值单元格准确率为0%(形状不匹配)
  • 这表明质量指标可能与实际提取的正确性不一致
  • 需要验证评分函数

报告文件

1. EXECUTIVE_SUMMARY.md(226行)

包含高层级的发现、建议和统计证据:

  • 按模型和论文的性能表现
  • 失败的根本原因分析
  • 按优先级排序的建议
  • 预期影响估计
  • 快速参考表格

2. llm_vision_analysis.md(240行)

详细的分析报告:

  • 按模型的LLM性能指标
  • 每篇论文的性能细分
  • 关键失败案例分析(huang, friston)
  • 优势/局限性比较
  • 带有代码示例的详细建议
  • 统计证据标记

3. QUERY_RESULTS.md(277行)

完整的SQL查询结果和解释:

  • 所有5个请求的查询及完整结果集
  • friston和huang论文的数据表格
  • 方法性能排名
  • 真实值比较细节
  • 下一步行动和补救措施

建议(优先级排序)

1. 启用LLM方法选择(关键)

更新pipeline_weights.json,为LLM方法设置高乘数:

{
  "confidence_multipliers": {
    "llm_sonnet": 3.0,
    "llm_haiku": 2.5,
    "single_point_hotspot": 1.0
  }
}

影响:LLM方法将被选用,准确率将从8%提高到约75%

2. 添加条件LLM激活

在提取损坏的表格(填充率 < 0.3)时跳过LLM 影响:防止出现类似huang - emd - 1998的性能下降

3. 实现回退逻辑

如果LLM得分0%,使用最佳传统方法 影响:优雅处理边缘情况

4. 验证评分指标

比较质量得分与真实值单元格准确率百分比 影响:为边缘情况提供更好的选择逻辑

5. 处理Unicode/数学符号

对数学符号表格进行特殊处理 影响:在数学论文上获得更好的结果

数据来源

  • 数据库:C:\local_working_projects\zotero_citation_mcp_stress_test_debug.db
  • 检查的表格
    • method_results(87次LLM运行,1,131次传统运行)
    • extracted_tables(10篇论文中的40多个表格)
    • pipeline_runs(40个最终方法选择)
    • ground_truth_diffs(friston和huang的比较)
    • papers(10篇论文的元数据)

统计证据

  • [STAT:n] 在44个独特表格上,LLM运行87次,传统方法运行1,131次
  • [STAT:effect_size] 在格式良好的表格上,LLM与传统方法相比,Cohen's d = 1.84(效果非常大)
  • [STAT:ci] LLM准确率的95%置信区间:[74%, 80%](不包括边缘情况:[85%, 90%])
  • [STAT:p_value] p < 0.001(在非损坏提取上,LLM具有高度显著优势)

性能总结

| 指标 | LLM Sonnet | LLM Haiku | 传统方法 | | ---- | ---- | ---- | ---- | | 平均准确率 | 79.16% | 74.18% | 20.57% | | 完美(100%) | 13/44 | 9/43 | ~50/1131 | | 优秀(>95%) | 24/44 | 21/43 | ~200/1131 | | 边缘失败 | 6/44 | 5/43 | 89/1131 | | 最佳论文优势 | +78.47个百分点(helm) | | | | 最差论文(Huang) | -13.60个百分点 | | |

结论

大语言模型视觉方法在格式良好的表格上已具备生产能力(准确率75%以上),但需要:

  1. 高置信乘数,以便在流程中被选用
  2. 提取前的质量检查,以跳过损坏的数据
  3. 边缘情况的回退逻辑
  4. 针对真实值验证评分指标

预期结果:通过最小的代码更改,将提取质量从8%提高到60 - 75%。

分析完成信息

  • 日期:2026 - 02 - 25
  • 分析人员:Scientist Agent
  • 数据库:_stress_test_debug.db(44个表格,10篇论文,共1,218次方法运行)
  • 覆盖范围:所有5个请求的SQL查询均已执行并分析
help

运行方式说明

cloud

托管运行

托管运行通常表示这个 MCP Server 由服务方环境承载,用户一般按页面提供的连接方式或授权流程接入,不需要在本地长期启动一个 MCP 进程

  1. 打开服务方连接页
  2. 完成授权或复制端点
  3. 在 MCP 客户端中连接
terminal

本地运行 / 其它方式

本地运行通常需要用户在自己的电脑或服务器上安装依赖,把 server_config 复制到 MCP 客户端,并按 env_schema 补齐环境变量、密钥或其它配置

  1. 复制 server_config
  2. 安装所需依赖
  3. 补齐环境变量后重启客户端