精选今天0 投票
CreativityBench:通过工具功能重用来评估AI的创造性推理能力
引言:AI的创造力短板
尽管大语言模型(LLM)在推理和与环境交互的任务中表现出色,但其创造性解决问题的能力仍鲜有探索。伊利诺伊大学厄巴纳-香槟分校和Salesforce AI的研究人员近日发布了一项新研究,通过“创造性工具使用”这一独特视角来评估AI的创造力——模型需通过推理物体的功能属性和特征来重新利用现有物体,而非依赖常规用法。
核心贡献:CreativityBench基准
作为第一步,研究团队推出了CreativityBench,一个专门评估LLM基于功能属性的创造性基准。为了构建该基准,他们首先建立了一个大规模的功能属性知识库(KB),包含4,000个实体和超过15万条功能属性注释,明确关联了物体、部件、特征和可操作用途。在此基础上,他们生成了14,000个接地任务,要求模型在约束条件下识别非显而易见的、物理上可行的解决方案。
评测结果:表面可行,深层乏力
研究者在10个最先进的LLM(包括闭源和开源模型)上进行了评估。结果显示,模型通常能够选出一个合理的物体,但在识别正确部件、其功能属性以及解决任务所需的底层物理机制方面表现不佳,导致性能显著下降。具体来说:
- 模型规模提升效果迅速饱和:更大的模型并未带来持续的创造力提升。
- 强通用推理能力无法可靠迁移:模型在标准推理任务上的优势并未转化为创造性功能发现能力。
- 常见推理策略收益有限:如思维链(Chain-of-Thought)等推理时策略带来的改进微乎其微。
意义与展望
这些结果表明,创造性工具使用仍是当前模型面临的重大挑战。CreativityBench为研究这一缺失的智能维度提供了有效的试验场,对未来的智能体规划和推理模块设计具有潜在启示。研究者指出,要真正实现具备创造力的AI代理,可能需要超越当前基于统计模式的推理方法,更深入地模拟人类对物体物理属性的理解与灵活运用。