CreativityBench：评估AI创造性推理的新基准

引言：AI的创造力短板

尽管大语言模型（LLM）在推理和与环境交互的任务中表现出色，但其创造性解决问题的能力仍鲜有探索。伊利诺伊大学厄巴纳-香槟分校和Salesforce AI的研究人员近日发布了一项新研究，通过“创造性工具使用”这一独特视角来评估AI的创造力——模型需通过推理物体的功能属性和特征来重新利用现有物体，而非依赖常规用法。

核心贡献：CreativityBench基准

作为第一步，研究团队推出了CreativityBench，一个专门评估LLM基于功能属性的创造性基准。为了构建该基准，他们首先建立了一个大规模的功能属性知识库（KB），包含4,000个实体和超过15万条功能属性注释，明确关联了物体、部件、特征和可操作用途。在此基础上，他们生成了14,000个接地任务，要求模型在约束条件下识别非显而易见的、物理上可行的解决方案。

评测结果：表面可行，深层乏力

研究者在10个最先进的LLM（包括闭源和开源模型）上进行了评估。结果显示，模型通常能够选出一个合理的物体，但在识别正确部件、其功能属性以及解决任务所需的底层物理机制方面表现不佳，导致性能显著下降。具体来说：

模型规模提升效果迅速饱和：更大的模型并未带来持续的创造力提升。
强通用推理能力无法可靠迁移：模型在标准推理任务上的优势并未转化为创造性功能发现能力。
常见推理策略收益有限：如思维链（Chain-of-Thought）等推理时策略带来的改进微乎其微。

意义与展望

这些结果表明，创造性工具使用仍是当前模型面临的重大挑战。CreativityBench为研究这一缺失的智能维度提供了有效的试验场，对未来的智能体规划和推理模块设计具有潜在启示。研究者指出，要真正实现具备创造力的AI代理，可能需要超越当前基于统计模式的推理方法，更深入地模拟人类对物体物理属性的理解与灵活运用。

CreativityBench：通过工具功能重用来评估AI的创造性推理能力

引言：AI的创造力短板

核心贡献：CreativityBench基准

评测结果：表面可行，深层乏力

意义与展望

延伸阅读

相关资讯