SheepNav
精选今天0 投票

寻找开放性的配方:用大型视觉语言模型复现 Picbreeder

当 AI 开始“无目的”地创造:一项关于开放性的实验

在 AI 助理日益渗透科研与创作的当下,一个根本问题浮现:机器能否像人类一样,进行真正“开放性”的探索——即不断产生新颖且有意义的成果,而不需要预设目标? 一项来自纽约大学等机构的研究,试图通过复现经典交互进化平台 Picbreeder,来检验大型视觉语言模型(VLM)在这方面的潜力。

Picbreeder:人类开放性的范本

Picbreeder 是一个让用户通过“交互式进化”协作生成图像的经典平台。其核心机制简单而强大:用户从一组随机生成的图像中选择自己偏好的个体,然后系统通过变异和交叉产生新一代。经过多轮选择,图像会朝着意想不到的方向演化——从简单的形状逐渐变成复杂的生物、建筑乃至抽象艺术。这种“无目标、无终点”的创造性过程,正是开放性的典型体现。

用 VLM 替代人类:机器能复制这种探索吗?

研究团队用前沿 VLM(如 GPT-4V 等)取代了 Picbreeder 中的人类用户。在每个进化步骤中,VLM 被要求从当前种群中选出“最有意思”的图像,作为下一代的父母。为了模拟人类行为的多样性,他们还引入了三种干预手段:

  • 探索性噪声:在选择过程中加入随机扰动,避免 VLM 过早陷入局部最优。
  • 行为多样性:让多个 VLM 代理采用不同的评价标准(例如一个偏好复杂性,另一个偏好对称性)。
  • 叙事记忆:让 VLM 记住之前的选择历史,形成连贯的“创作方向”。

机器与人类的差距:不仅是“品味”问题

结果显示,VLM 驱动的进化确实能产生视觉上可识别的图像,但与人类驱动的结果存在显著差异。人类 Picbreeder 的图库中充满了令人惊讶的“意外之作”——比如形似动物、面孔或物体的图案,这些往往是用户个人偏好与随机变异碰撞的结果。而 VLM 生成的图像虽然也具备多样性,但整体更倾向于“典型化”和“审美安全”,缺乏那种出人意料的创意飞跃。

研究者使用系统发育复杂性(追踪图像谱系的形态变化)和视觉/语义显著性(图像在感知和意义层面的突出程度)等指标进行量化分析。初步发现:VLM 代理在缺乏“记忆”和“多样性”机制时,容易陷入重复的进化路径;而加入噪声和多样性后,图像的语义新颖性有所提升,但仍未达到人类水平的“惊喜感”。

开放性的“配方”仍不完整

这项研究并非要证明 VLM 不如人类,而是试图拆解开放性背后的关键成分。人类探索中那种“漫无目的的好奇心”可能依赖于复杂的认知机制——包括对意外性的包容、个人经验的投射,以及社会性的协作反馈。 当前的 VLM 虽然具备强大的模式识别和生成能力,但在“主动寻求新奇”这一维度上仍显被动。

论文将于 GECCO 2026 发表,代码已开源。这项工作为未来设计真正具有“开放性”的 AI 系统提供了重要参考:或许,让机器学会“无聊”并主动寻找意外,才是通往自主创新的关键一步。

延伸阅读

  1. 当正确信念崩塌:临床压力下LLM的认知韧性研究
  2. BODHI:精准推断操作系统内核规格,LLM Pass@1 飙升至 96.73%
  3. 量子青蛙:量化时间合作游戏中的涌现协作与难度缩放
查看原文