README
🚀 大语言模型视觉方法分析 - 完整报告
本报告主要评估了大语言模型(LLM)视觉方法(Claude Haiku + Sonnet)在学术表格提取任务中的性能,并探究了尽管其准确率更高,但在流程中未被采用的原因。
🚀 快速开始
本报告聚焦于大语言模型视觉方法在学术表格提取中的表现,通过对比LLM方法和传统方法的各项指标,分析LLM方法未被流程选用的原因,并给出相应的改进建议。
✨ 主要特性
- 显著的性能优势:LLM方法在表格提取的准确率上远超传统方法。
- 深入的问题分析:剖析了LLM方法未被流程选用的根本原因,以及存在的不同失败模式。
- 全面的报告体系:包含执行摘要、详细分析报告和查询结果等多个文件,提供丰富的数据和分析。
- 实用的改进建议:针对发现的问题给出了优先级排序的建议,有望提升表格提取的质量。
📦 安装指南
文档中未提及安装相关内容,故跳过此章节。
💻 使用示例
文档中未提供代码示例,故跳过此章节。
📚 详细文档
关键发现
1. LLM方法表现显著更优
- LLM平均准确率:76.7%(87次运行)
- 传统方法平均准确率:20.6%(1,131次运行)
- 优势:高出56.1个百分点
- 完美提取(100%):LLM为25.3%,传统方法约为4%
- 优秀提取(>95%):LLM为27.6%,传统方法约为18%
2. LLM方法未被流程选用
- LLM结果计算:在44个表格上进行了87次方法运行
- LLM结果使用:0个方法被选为最终结果
- 流程获胜方法:40个表格中有36个使用了single_point_hotspot:rawdict(平均准确率8.07%)
- 根本原因:
pipeline_weights.json中的置信乘数过低
3. 存在两种不同的失败模式
- 格式良好的表格(8/10篇论文):LLM具有55 - 78个百分点的优势
- 提取损坏的表格(huang - emd - 1998):LLM落后13.6个百分点(尝试推理,但结构损坏时失败)
- 数学符号表格(friston - life):两种方法表现都较弱(真实值准确率为0%),LLM得分为44.62%
4. 真实值对齐问题
- Friston表格:LLM得分为44.62%,真实值单元格准确率为0%(形状不匹配)
- 这表明质量指标可能与实际提取的正确性不一致
- 需要验证评分函数
报告文件
1. EXECUTIVE_SUMMARY.md(226行)
包含高层级的发现、建议和统计证据:
- 按模型和论文的性能表现
- 失败的根本原因分析
- 按优先级排序的建议
- 预期影响估计
- 快速参考表格
2. llm_vision_analysis.md(240行)
详细的分析报告:
- 按模型的LLM性能指标
- 每篇论文的性能细分
- 关键失败案例分析(huang, friston)
- 优势/局限性比较
- 带有代码示例的详细建议
- 统计证据标记
3. QUERY_RESULTS.md(277行)
完整的SQL查询结果和解释:
- 所有5个请求的查询及完整结果集
- friston和huang论文的数据表格
- 方法性能排名
- 真实值比较细节
- 下一步行动和补救措施
建议(优先级排序)
1. 启用LLM方法选择(关键)
更新pipeline_weights.json,为LLM方法设置高乘数:
{
"confidence_multipliers": {
"llm_sonnet": 3.0,
"llm_haiku": 2.5,
"single_point_hotspot": 1.0
}
}
影响:LLM方法将被选用,准确率将从8%提高到约75%
2. 添加条件LLM激活
在提取损坏的表格(填充率 < 0.3)时跳过LLM 影响:防止出现类似huang - emd - 1998的性能下降
3. 实现回退逻辑
如果LLM得分0%,使用最佳传统方法 影响:优雅处理边缘情况
4. 验证评分指标
比较质量得分与真实值单元格准确率百分比 影响:为边缘情况提供更好的选择逻辑
5. 处理Unicode/数学符号
对数学符号表格进行特殊处理 影响:在数学论文上获得更好的结果
数据来源
- 数据库:C:\local_working_projects\zotero_citation_mcp_stress_test_debug.db
- 检查的表格:
- method_results(87次LLM运行,1,131次传统运行)
- extracted_tables(10篇论文中的40多个表格)
- pipeline_runs(40个最终方法选择)
- ground_truth_diffs(friston和huang的比较)
- papers(10篇论文的元数据)
统计证据
- [STAT:n] 在44个独特表格上,LLM运行87次,传统方法运行1,131次
- [STAT:effect_size] 在格式良好的表格上,LLM与传统方法相比,Cohen's d = 1.84(效果非常大)
- [STAT:ci] LLM准确率的95%置信区间:[74%, 80%](不包括边缘情况:[85%, 90%])
- [STAT:p_value] p < 0.001(在非损坏提取上,LLM具有高度显著优势)
性能总结
| 指标 | LLM Sonnet | LLM Haiku | 传统方法 | | ---- | ---- | ---- | ---- | | 平均准确率 | 79.16% | 74.18% | 20.57% | | 完美(100%) | 13/44 | 9/43 | ~50/1131 | | 优秀(>95%) | 24/44 | 21/43 | ~200/1131 | | 边缘失败 | 6/44 | 5/43 | 89/1131 | | 最佳论文优势 | +78.47个百分点(helm) | | | | 最差论文(Huang) | -13.60个百分点 | | |
结论
大语言模型视觉方法在格式良好的表格上已具备生产能力(准确率75%以上),但需要:
- 高置信乘数,以便在流程中被选用
- 提取前的质量检查,以跳过损坏的数据
- 边缘情况的回退逻辑
- 针对真实值验证评分指标
预期结果:通过最小的代码更改,将提取质量从8%提高到60 - 75%。
分析完成信息
- 日期:2026 - 02 - 25
- 分析人员:Scientist Agent
- 数据库:_stress_test_debug.db(44个表格,10篇论文,共1,218次方法运行)
- 覆盖范围:所有5个请求的SQL查询均已执行并分析
Scan to join WeChat group