SheepNav
精选今天0 投票

CreativityBench:通过工具功能重用来评估AI的创造性推理能力

引言:AI的创造力短板

尽管大语言模型(LLM)在推理和与环境交互的任务中表现出色,但其创造性解决问题的能力仍鲜有探索。伊利诺伊大学厄巴纳-香槟分校和Salesforce AI的研究人员近日发布了一项新研究,通过“创造性工具使用”这一独特视角来评估AI的创造力——模型需通过推理物体的功能属性和特征来重新利用现有物体,而非依赖常规用法。

核心贡献:CreativityBench基准

作为第一步,研究团队推出了CreativityBench,一个专门评估LLM基于功能属性的创造性基准。为了构建该基准,他们首先建立了一个大规模的功能属性知识库(KB),包含4,000个实体超过15万条功能属性注释,明确关联了物体、部件、特征和可操作用途。在此基础上,他们生成了14,000个接地任务,要求模型在约束条件下识别非显而易见的、物理上可行的解决方案。

评测结果:表面可行,深层乏力

研究者在10个最先进的LLM(包括闭源和开源模型)上进行了评估。结果显示,模型通常能够选出一个合理的物体,但在识别正确部件、其功能属性以及解决任务所需的底层物理机制方面表现不佳,导致性能显著下降。具体来说:

  • 模型规模提升效果迅速饱和:更大的模型并未带来持续的创造力提升。
  • 强通用推理能力无法可靠迁移:模型在标准推理任务上的优势并未转化为创造性功能发现能力。
  • 常见推理策略收益有限:如思维链(Chain-of-Thought)等推理时策略带来的改进微乎其微。

意义与展望

这些结果表明,创造性工具使用仍是当前模型面临的重大挑战。CreativityBench为研究这一缺失的智能维度提供了有效的试验场,对未来的智能体规划和推理模块设计具有潜在启示。研究者指出,要真正实现具备创造力的AI代理,可能需要超越当前基于统计模式的推理方法,更深入地模拟人类对物体物理属性的理解与灵活运用。

延伸阅读

  1. Computing Thiele Rules on Interval Elections and their Generalizations
  2. 稳定自主控制:工具中介的LLM架构实现自主网络防御
  3. 让隐形变得可见:AI 采纳中组织目标与员工体验的错位
查看原文