AI 画科学图靠谱吗？新基准 SciDraw-Bench 给出答案

文本到图像生成模型（如 Stable Diffusion、DALL·E）和多模态大模型在生成自然风景、人物肖像甚至艺术创作上已经相当惊艳，但面对科学图表——机制示意图、实验设计草图、概念框架或图形摘要——它们还能保持同样水准吗？答案是：远未达标。

近日，一篇题为《Can AI Draw Science? A Benchmark for Evaluating Scientific Figure Generation by Text-to-Image and Multimodal Models》的论文提出了 SciDraw-Bench，这是首个专门针对科学图表生成能力的评测基准。研究团队指出，现有主流图像生成评测（如 GenEval、T2I-CompBench、DPG-Bench）均聚焦于自然图像的组合性、物体计数或逼真度，完全没有衡量科学图表最关键的要素：标签文字是否正确可读、实体与关系是否准确呈现、图表结构是否连贯、以及是否符合学科绘图规范。

SciDraw-Bench 包含 32 个结构化的科学图表生成任务，覆盖 8 种图表类型（如机制图、流程图、示意图等）和 10 个学科（生物学、化学、物理学等）。每个任务都配有自然语言提示和机器可检查的规范说明，明确要求必须包含哪些标签、关系和组件，遵守哪些约定，并禁止出现哪些错误。

评估采用四个维度：

文本保真度：通过 OCR 检测标签的召回率和字符错误率；
语义正确性：使用视觉语言模型判断生成图是否符合规范说明；
结构质量：评估图表的布局、连线、层次等结构是否合理；
惯例遵守：检查是否符合特定学科或图表类型的绘图惯例（例如化学结构式的键角、流程图的标准箭头）。

此外，论文还提出了元评估协议和初步的评分者间信度分析（人工评分验证仍在进行中）。

在初步测试中，研究团队对比了一个领域专用系统 SciDraw AI 与多个通用文本到图像模型。结果不出所料：SciDraw AI 在所有维度、所有图表类型上均大幅领先，尤其在语义正确性和惯例遵守方面差距最大。而文本保真度对所有系统来说都是最难攻克的一环——生成的文字常常模糊、错位或根本不可读。

这一基准的提出，不仅填补了评测空白，也为未来科学可视化生成模型的发展指明了方向。研究者计划扩展代码到图形的基线方法，并邀请更多社区参与人工验证。对于 AI 在科研辅助领域的落地，SciDraw-Bench 提供了一个清晰的“体检报告”：AI 能画科学图，但离“可用”还有相当距离。

AI 能画出科学图吗？新基准 SciDraw-Bench 全面评测图文模型

延伸阅读

相关资讯