SheepNav
精选今天0 投票

从3D形状到可建造砖块结构:BrickAnything 用结构感知分词技术革新生成方式

让 AI 学会“搭积木”:BrickAnything 突破物理可建造性瓶颈

在计算机图形学与人工智能交叉领域,如何将任意3D形状自动转化为由标准砖块(如乐高积木)构成的、物理上可稳定搭建的结构,一直是一个极具挑战性的问题。这不仅要求几何形状的还原,更需满足离散零件约束结构稳定性——例如,砖块必须互锁、不能悬空、整体重心不能偏移。

近日,来自清华大学等机构的研究团队在 arXiv 上发表了论文 《BrickAnything: Geometry-Conditioned Buildable Brick Generation with Structure-Aware Tokenization》,提出了一种全新的自回归生成框架,旨在解决现有方法的根本性缺陷。

现有方法的两难困境

论文指出,当前主流的砖块生成方法主要分为两类:

  • 启发式优化法:通过局部搜索或迭代调整来匹配目标形状。但当目标形状本身不满足预定义的约束(如某些曲面、薄壁结构)时,优化过程可能完全失败,导致无解或生成大量不合理的砖块。
  • 序列生成法:直接预测砖块放置的顺序。然而,这类方法往往缺乏对底层3D几何与装配关系的显式建模,导致生成序列中频繁出现无效中间状态(如砖块悬空、碰撞),需要大量后处理修复。

BrickAnything 的核心创新:结构感知树分词

BrickAnything 的关键突破在于提出了一种结构感知的树状分词(Structure-Aware Tree Tokenization)。传统方法将砖块序列视为线性 token 序列,忽略了砖块之间的局部依附关系。而 BrickAnything 将砖块结构表示为一棵树,其中每个节点代表一块砖,父子关系表示“上层砖块依附于下层砖块”。

这种表示方式有两大优势:

  1. 物理一致性:生成过程模拟了真实搭建中“从下往上、逐层支撑”的逻辑,天然避免了悬空等无效状态。
  2. 减少无效回滚:实验表明,相比线性排序,树分词显著降低了生成过程中的回滚与重生成次数。

技术细节与性能提升

除分词外,BrickAnything 还引入了三项关键技术:

  • 偏好对齐后训练(Preference-based Alignment Post-training):通过强化学习思想,让模型优先生成稳定性高、几何保真度好的结构。
  • 有效性约束解码(Validity-constrained Decoding):在推理阶段实时检查每一步的物理可行性,及时修正。
  • 自适应回滚(Adaptive Rollback):当检测到无法继续时,自动回退到合理状态重新生成。

输入方面,模型以点云作为统一几何接口,可接受来自网格、CAD模型或深度扫描的任意3D形状。输出则是一组可直接用于搭建的砖块序列。

行业意义与应用前景

BrickAnything 的发布对多个领域具有潜在价值:

  • 玩具与教育:可自动将孩子绘制的3D模型转化为乐高搭建指南。
  • 建筑与制造:辅助设计低成本、易装配的预制件结构。
  • 机器人自主搭建:为机器人提供符合物理规则的搭建规划。

论文在多个基准测试中验证了其优越性:生成的砖块结构在几何误差、稳定性评分和物理可建造率上均显著优于现有方法。不过,研究团队也坦诚,当前框架在处理超大场景时的推理效率仍有优化空间。

小结

BrickAnything 不仅是一个技术突破,更代表了一种思路转变:让 AI 先理解“如何搭建”,再学习“搭建什么”。通过结构感知分词将物理常识融入生成过程,它有望成为连接数字3D世界与物理积木世界的桥梁。

延伸阅读

  1. LLM 能内省吗?一项现实检验
  2. 智能体记忆是数据库吗?重新思考长期AI记忆的数据基础
  3. Personalizing Embodied Multimodal Large Language Model Agents over Long-term User Interactions
查看原文