精选今天0 投票

空间提示 vs. 语义提示：网格叠加法让LLM图表数据提取错误率降低6个百分点

一项来自 arXiv 的最新研究（论文 ID: 2605.08220）对提升多模态大语言模型（LLM）在科学图表数据提取任务上的准确性进行了深入比较。研究团队发现，与高级语义提示（如元数据优先框架、思维链）相比，一种简单低级的空间提示——在图表图像上叠加坐标网格——能带来统计上显著的性能提升。

研究背景与问题

从科学图表中自动提取数据是大型文献分析的关键步骤。尽管多模态大语言模型展现了潜力，但在处理非标准化图表时，其准确性仍然面临挑战。这引出了一个核心研究问题：哪种策略更有效——是提供高级语义提示，还是低级空间提示？

实验方法

研究首先尝试了两种语义方法：

两阶段元数据优先框架：先提取图表元数据（如轴标签、图例），再进行数据提取。
思维链：引导模型逐步推理。

然而，这些方法均未带来统计上显著的改进。

相比之下，空间提示方法简单却高效：在将图表图像输入模型之前，先在其上叠加一个坐标网格。这种网格为模型提供了明确的坐标参考，降低了数值定位的难度。

实验结果

在合成数据集上的定量实验显示：

基线：平均对称平均绝对百分比误差（SMAPE）为 25.5%。
网格叠加法：SMAPE 降至 19.5%，错误率降低约6个百分点，且统计显著性达到 p < 0.05。

结论与启示

研究表明，对于当前这一代多模态模型，在图表数据提取这类任务中，提供明确的空间上下文比高级语义指导更有效、更可靠。这为实际应用提供了低成本的优化方向：在预处理阶段为图表添加坐标网格，即可显著提升LLM的数据提取精度。

该论文已被 SUMMA 2025 会议接收，最终版本可在 IEEE Xplore 上获取。

延伸阅读

相关资讯

PLACO：一种面向人机协同的成本效益多阶段框架

SkillLens：自适应多粒度技能复用，让LLM智能体更高效

MemQ：将Q学习融入基于溯源DAG的自演化记忆智能体

区分后训练中的能力激发与能力创造：自由能视角