SheepNav
精选今天0 投票

空间提示 vs. 语义提示:网格叠加法让LLM图表数据提取错误率降低6个百分点

一项来自 arXiv 的最新研究(论文 ID: 2605.08220)对提升多模态大语言模型(LLM)在科学图表数据提取任务上的准确性进行了深入比较。研究团队发现,与高级语义提示(如元数据优先框架、思维链)相比,一种简单低级的空间提示——在图表图像上叠加坐标网格——能带来统计上显著的性能提升。

研究背景与问题

从科学图表中自动提取数据是大型文献分析的关键步骤。尽管多模态大语言模型展现了潜力,但在处理非标准化图表时,其准确性仍然面临挑战。这引出了一个核心研究问题:哪种策略更有效——是提供高级语义提示,还是低级空间提示?

实验方法

研究首先尝试了两种语义方法:

  • 两阶段元数据优先框架:先提取图表元数据(如轴标签、图例),再进行数据提取。
  • 思维链:引导模型逐步推理。

然而,这些方法均未带来统计上显著的改进。

相比之下,空间提示方法简单却高效:在将图表图像输入模型之前,先在其上叠加一个坐标网格。这种网格为模型提供了明确的坐标参考,降低了数值定位的难度。

实验结果

在合成数据集上的定量实验显示:

  • 基线:平均对称平均绝对百分比误差(SMAPE)为 25.5%
  • 网格叠加法:SMAPE 降至 19.5%,错误率降低约6个百分点,且统计显著性达到 p < 0.05。

结论与启示

研究表明,对于当前这一代多模态模型,在图表数据提取这类任务中,提供明确的空间上下文比高级语义指导更有效、更可靠。这为实际应用提供了低成本的优化方向:在预处理阶段为图表添加坐标网格,即可显著提升LLM的数据提取精度。

该论文已被 SUMMA 2025 会议接收,最终版本可在 IEEE Xplore 上获取。

延伸阅读

  1. PLACO:一种面向人机协同的成本效益多阶段框架
  2. SkillLens:自适应多粒度技能复用,让LLM智能体更高效
  3. MemQ:将Q学习融入基于溯源DAG的自演化记忆智能体
查看原文