AI 能画出科学图吗?新基准 SciDraw-Bench 全面评测图文模型
文本到图像生成模型(如 Stable Diffusion、DALL·E)和多模态大模型在生成自然风景、人物肖像甚至艺术创作上已经相当惊艳,但面对科学图表——机制示意图、实验设计草图、概念框架或图形摘要——它们还能保持同样水准吗?答案是:远未达标。
近日,一篇题为《Can AI Draw Science? A Benchmark for Evaluating Scientific Figure Generation by Text-to-Image and Multimodal Models》的论文提出了 SciDraw-Bench,这是首个专门针对科学图表生成能力的评测基准。研究团队指出,现有主流图像生成评测(如 GenEval、T2I-CompBench、DPG-Bench)均聚焦于自然图像的组合性、物体计数或逼真度,完全没有衡量科学图表最关键的要素:标签文字是否正确可读、实体与关系是否准确呈现、图表结构是否连贯、以及是否符合学科绘图规范。
SciDraw-Bench 包含 32 个结构化的科学图表生成任务,覆盖 8 种图表类型(如机制图、流程图、示意图等)和 10 个学科(生物学、化学、物理学等)。每个任务都配有自然语言提示和机器可检查的规范说明,明确要求必须包含哪些标签、关系和组件,遵守哪些约定,并禁止出现哪些错误。
评估采用四个维度:
- 文本保真度:通过 OCR 检测标签的召回率和字符错误率;
- 语义正确性:使用视觉语言模型判断生成图是否符合规范说明;
- 结构质量:评估图表的布局、连线、层次等结构是否合理;
- 惯例遵守:检查是否符合特定学科或图表类型的绘图惯例(例如化学结构式的键角、流程图的标准箭头)。
此外,论文还提出了元评估协议和初步的评分者间信度分析(人工评分验证仍在进行中)。
在初步测试中,研究团队对比了一个领域专用系统 SciDraw AI 与多个通用文本到图像模型。结果不出所料:SciDraw AI 在所有维度、所有图表类型上均大幅领先,尤其在语义正确性和惯例遵守方面差距最大。而文本保真度对所有系统来说都是最难攻克的一环——生成的文字常常模糊、错位或根本不可读。
这一基准的提出,不仅填补了评测空白,也为未来科学可视化生成模型的发展指明了方向。研究者计划扩展代码到图形的基线方法,并邀请更多社区参与人工验证。对于 AI 在科研辅助领域的落地,SciDraw-Bench 提供了一个清晰的“体检报告”:AI 能画科学图,但离“可用”还有相当距离。