从3D形状到可建造砖块结构:BrickAnything 用结构感知分词技术革新生成方式
让 AI 学会“搭积木”:BrickAnything 突破物理可建造性瓶颈
在计算机图形学与人工智能交叉领域,如何将任意3D形状自动转化为由标准砖块(如乐高积木)构成的、物理上可稳定搭建的结构,一直是一个极具挑战性的问题。这不仅要求几何形状的还原,更需满足离散零件约束与结构稳定性——例如,砖块必须互锁、不能悬空、整体重心不能偏移。
近日,来自清华大学等机构的研究团队在 arXiv 上发表了论文 《BrickAnything: Geometry-Conditioned Buildable Brick Generation with Structure-Aware Tokenization》,提出了一种全新的自回归生成框架,旨在解决现有方法的根本性缺陷。
现有方法的两难困境
论文指出,当前主流的砖块生成方法主要分为两类:
- 启发式优化法:通过局部搜索或迭代调整来匹配目标形状。但当目标形状本身不满足预定义的约束(如某些曲面、薄壁结构)时,优化过程可能完全失败,导致无解或生成大量不合理的砖块。
- 序列生成法:直接预测砖块放置的顺序。然而,这类方法往往缺乏对底层3D几何与装配关系的显式建模,导致生成序列中频繁出现无效中间状态(如砖块悬空、碰撞),需要大量后处理修复。
BrickAnything 的核心创新:结构感知树分词
BrickAnything 的关键突破在于提出了一种结构感知的树状分词(Structure-Aware Tree Tokenization)。传统方法将砖块序列视为线性 token 序列,忽略了砖块之间的局部依附关系。而 BrickAnything 将砖块结构表示为一棵树,其中每个节点代表一块砖,父子关系表示“上层砖块依附于下层砖块”。
这种表示方式有两大优势:
- 物理一致性:生成过程模拟了真实搭建中“从下往上、逐层支撑”的逻辑,天然避免了悬空等无效状态。
- 减少无效回滚:实验表明,相比线性排序,树分词显著降低了生成过程中的回滚与重生成次数。
技术细节与性能提升
除分词外,BrickAnything 还引入了三项关键技术:
- 偏好对齐后训练(Preference-based Alignment Post-training):通过强化学习思想,让模型优先生成稳定性高、几何保真度好的结构。
- 有效性约束解码(Validity-constrained Decoding):在推理阶段实时检查每一步的物理可行性,及时修正。
- 自适应回滚(Adaptive Rollback):当检测到无法继续时,自动回退到合理状态重新生成。
输入方面,模型以点云作为统一几何接口,可接受来自网格、CAD模型或深度扫描的任意3D形状。输出则是一组可直接用于搭建的砖块序列。
行业意义与应用前景
BrickAnything 的发布对多个领域具有潜在价值:
- 玩具与教育:可自动将孩子绘制的3D模型转化为乐高搭建指南。
- 建筑与制造:辅助设计低成本、易装配的预制件结构。
- 机器人自主搭建:为机器人提供符合物理规则的搭建规划。
论文在多个基准测试中验证了其优越性:生成的砖块结构在几何误差、稳定性评分和物理可建造率上均显著优于现有方法。不过,研究团队也坦诚,当前框架在处理超大场景时的推理效率仍有优化空间。
小结
BrickAnything 不仅是一个技术突破,更代表了一种思路转变:让 AI 先理解“如何搭建”,再学习“搭建什么”。通过结构感知分词将物理常识融入生成过程,它有望成为连接数字3D世界与物理积木世界的桥梁。