金大哥 - zotero-chunk-mcp MCP 详情

article

README

🚀 大语言模型视觉方法分析 - 完整报告

本报告主要评估了大语言模型（LLM）视觉方法（Claude Haiku + Sonnet）在学术表格提取任务中的性能，并探究了尽管其准确率更高，但在流程中未被采用的原因。

🚀 快速开始

本报告聚焦于大语言模型视觉方法在学术表格提取中的表现，通过对比LLM方法和传统方法的各项指标，分析LLM方法未被流程选用的原因，并给出相应的改进建议。

✨ 主要特性

显著的性能优势：LLM方法在表格提取的准确率上远超传统方法。
深入的问题分析：剖析了LLM方法未被流程选用的根本原因，以及存在的不同失败模式。
全面的报告体系：包含执行摘要、详细分析报告和查询结果等多个文件，提供丰富的数据和分析。
实用的改进建议：针对发现的问题给出了优先级排序的建议，有望提升表格提取的质量。

📦 安装指南

文档中未提及安装相关内容，故跳过此章节。

💻 使用示例

文档中未提供代码示例，故跳过此章节。

📚 详细文档

关键发现

1. LLM方法表现显著更优

LLM平均准确率：76.7%（87次运行）
传统方法平均准确率：20.6%（1,131次运行）
优势：高出56.1个百分点
完美提取（100%）：LLM为25.3%，传统方法约为4%
优秀提取（>95%）：LLM为27.6%，传统方法约为18%

2. LLM方法未被流程选用

LLM结果计算：在44个表格上进行了87次方法运行
LLM结果使用：0个方法被选为最终结果
流程获胜方法：40个表格中有36个使用了single_point_hotspot:rawdict（平均准确率8.07%）
根本原因：pipeline_weights.json中的置信乘数过低

3. 存在两种不同的失败模式

格式良好的表格（8/10篇论文）：LLM具有55 - 78个百分点的优势
提取损坏的表格（huang - emd - 1998）：LLM落后13.6个百分点（尝试推理，但结构损坏时失败）
数学符号表格（friston - life）：两种方法表现都较弱（真实值准确率为0%），LLM得分为44.62%

4. 真实值对齐问题

Friston表格：LLM得分为44.62%，真实值单元格准确率为0%（形状不匹配）
这表明质量指标可能与实际提取的正确性不一致
需要验证评分函数

报告文件

1. EXECUTIVE_SUMMARY.md（226行）

包含高层级的发现、建议和统计证据：

按模型和论文的性能表现
失败的根本原因分析
按优先级排序的建议
预期影响估计
快速参考表格

2. llm_vision_analysis.md（240行）

详细的分析报告：

按模型的LLM性能指标
每篇论文的性能细分
关键失败案例分析（huang, friston）
优势/局限性比较
带有代码示例的详细建议
统计证据标记

3. QUERY_RESULTS.md（277行）

完整的SQL查询结果和解释：

所有5个请求的查询及完整结果集
friston和huang论文的数据表格
方法性能排名
真实值比较细节
下一步行动和补救措施

建议（优先级排序）

1. 启用LLM方法选择（关键）

更新pipeline_weights.json，为LLM方法设置高乘数：

{
  "confidence_multipliers": {
    "llm_sonnet": 3.0,
    "llm_haiku": 2.5,
    "single_point_hotspot": 1.0
  }
}

影响：LLM方法将被选用，准确率将从8%提高到约75%

2. 添加条件LLM激活

在提取损坏的表格（填充率 < 0.3）时跳过LLM 影响：防止出现类似huang - emd - 1998的性能下降

3. 实现回退逻辑

如果LLM得分0%，使用最佳传统方法影响：优雅处理边缘情况

4. 验证评分指标

比较质量得分与真实值单元格准确率百分比影响：为边缘情况提供更好的选择逻辑

5. 处理Unicode/数学符号

对数学符号表格进行特殊处理影响：在数学论文上获得更好的结果

数据来源

数据库：C:\local_working_projects\zotero_citation_mcp_stress_test_debug.db
检查的表格：
- method_results（87次LLM运行，1,131次传统运行）
- extracted_tables（10篇论文中的40多个表格）
- pipeline_runs（40个最终方法选择）
- ground_truth_diffs（friston和huang的比较）
- papers（10篇论文的元数据）

统计证据

[STAT:n] 在44个独特表格上，LLM运行87次，传统方法运行1,131次
[STAT:effect_size] 在格式良好的表格上，LLM与传统方法相比，Cohen's d = 1.84（效果非常大）
[STAT:ci] LLM准确率的95%置信区间：[74%, 80%]（不包括边缘情况：[85%, 90%]）
[STAT:p_value] p < 0.001（在非损坏提取上，LLM具有高度显著优势）

性能总结

| 指标 | LLM Sonnet | LLM Haiku | 传统方法 | | ---- | ---- | ---- | ---- | | 平均准确率 | 79.16% | 74.18% | 20.57% | | 完美（100%） | 13/44 | 9/43 | ~50/1131 | | 优秀（>95%） | 24/44 | 21/43 | ~200/1131 | | 边缘失败 | 6/44 | 5/43 | 89/1131 | | 最佳论文优势 | +78.47个百分点（helm） | | | | 最差论文（Huang） | -13.60个百分点 | | |

结论

大语言模型视觉方法在格式良好的表格上已具备生产能力（准确率75%以上），但需要：

高置信乘数，以便在流程中被选用
提取前的质量检查，以跳过损坏的数据
边缘情况的回退逻辑
针对真实值验证评分指标

预期结果：通过最小的代码更改，将提取质量从8%提高到60 - 75%。

分析完成信息

日期：2026 - 02 - 25
分析人员：Scientist Agent
数据库：_stress_test_debug.db（44个表格，10篇论文，共1,218次方法运行）
覆盖范围：所有5个请求的SQL查询均已执行并分析

zotero-chunk-mcp