复现Picbreeder：大型视觉语言模型能否实现开放性创造？

当 AI 开始“无目的”地创造：一项关于开放性的实验

在 AI 助理日益渗透科研与创作的当下，一个根本问题浮现：机器能否像人类一样，进行真正“开放性”的探索——即不断产生新颖且有意义的成果，而不需要预设目标？ 一项来自纽约大学等机构的研究，试图通过复现经典交互进化平台 Picbreeder，来检验大型视觉语言模型（VLM）在这方面的潜力。

Picbreeder：人类开放性的范本

Picbreeder 是一个让用户通过“交互式进化”协作生成图像的经典平台。其核心机制简单而强大：用户从一组随机生成的图像中选择自己偏好的个体，然后系统通过变异和交叉产生新一代。经过多轮选择，图像会朝着意想不到的方向演化——从简单的形状逐渐变成复杂的生物、建筑乃至抽象艺术。这种“无目标、无终点”的创造性过程，正是开放性的典型体现。

用 VLM 替代人类：机器能复制这种探索吗？

研究团队用前沿 VLM（如 GPT-4V 等）取代了 Picbreeder 中的人类用户。在每个进化步骤中，VLM 被要求从当前种群中选出“最有意思”的图像，作为下一代的父母。为了模拟人类行为的多样性，他们还引入了三种干预手段：

探索性噪声：在选择过程中加入随机扰动，避免 VLM 过早陷入局部最优。
行为多样性：让多个 VLM 代理采用不同的评价标准（例如一个偏好复杂性，另一个偏好对称性）。
叙事记忆：让 VLM 记住之前的选择历史，形成连贯的“创作方向”。

机器与人类的差距：不仅是“品味”问题

结果显示，VLM 驱动的进化确实能产生视觉上可识别的图像，但与人类驱动的结果存在显著差异。人类 Picbreeder 的图库中充满了令人惊讶的“意外之作”——比如形似动物、面孔或物体的图案，这些往往是用户个人偏好与随机变异碰撞的结果。而 VLM 生成的图像虽然也具备多样性，但整体更倾向于“典型化”和“审美安全”，缺乏那种出人意料的创意飞跃。

研究者使用系统发育复杂性（追踪图像谱系的形态变化）和视觉/语义显著性（图像在感知和意义层面的突出程度）等指标进行量化分析。初步发现：VLM 代理在缺乏“记忆”和“多样性”机制时，容易陷入重复的进化路径；而加入噪声和多样性后，图像的语义新颖性有所提升，但仍未达到人类水平的“惊喜感”。

开放性的“配方”仍不完整

这项研究并非要证明 VLM 不如人类，而是试图拆解开放性背后的关键成分。人类探索中那种“漫无目的的好奇心”可能依赖于复杂的认知机制——包括对意外性的包容、个人经验的投射，以及社会性的协作反馈。 当前的 VLM 虽然具备强大的模式识别和生成能力，但在“主动寻求新奇”这一维度上仍显被动。

论文将于 GECCO 2026 发表，代码已开源。这项工作为未来设计真正具有“开放性”的 AI 系统提供了重要参考：或许，让机器学会“无聊”并主动寻找意外，才是通往自主创新的关键一步。

寻找开放性的配方：用大型视觉语言模型复现 Picbreeder

当 AI 开始“无目的”地创造：一项关于开放性的实验

Picbreeder：人类开放性的范本

用 VLM 替代人类：机器能复制这种探索吗？

机器与人类的差距：不仅是“品味”问题

开放性的“配方”仍不完整

延伸阅读

相关资讯