SheepNav
新上线今天0 投票

GEM:几何熵混合——大模型预训练数据配比的最优解

大语言模型(LLM)的预训练效果正越来越依赖于数据构成而非单纯的数据量。然而,如何实现最优数据混合一直是个难题:传统的人工分类存在本体论错位,而欧几里得聚类又无法处理嵌入向量的各向异性问题。针对这一挑战,来自学术界的研究团队提出了GEM(几何熵混合) 框架,将数据配比问题重新定义为超球面上的变分问题,并引入混合平衡正则化项,为数据筛选提供了全新的几何视角。

核心创新:从欧氏空间到超球面的跃迁

GEM的核心在于解耦生成先验,并通过可证明的 MM(Minorize-Maximize)算法优化目标函数。该方法有效抑制了聚类坍缩现象,能够发现欧几里得启发式方法无法识别的平衡语义结构。简单来说,传统方法在数据嵌入空间中做聚类时,往往由于各向异性导致聚类结果偏向高密度区域,而GEM通过几何熵约束使得聚类更加均匀,从而挖掘出更丰富、更均衡的数据分布。

可扩展性与可解释性并重

为了将这一几何保真度扩展到网络规模的语料库,研究团队采用了教师-学生蒸馏技术。同时,他们引入了几何影响评分(GIS),用于生成可解释的类别体系。这意味着GEM不仅能在数学上优化数据混合,还能为用户提供清晰的类别解释,让研究人员理解“为什么某些数据被归为一类”。

实验验证:1.1B参数模型的显著提升

在包含 1.1B 参数的模型上进行实验,GEM 在与 DoReMi、RegMix 等主流混合策略整合后,平均下游准确率提升了高达 1.2%,并建立了一个新的最优水平。更重要的是,GEM 提供了一个鲁棒的坐标系统,使得数据混合的效果变得可预测,这对大规模预训练的实际工程落地至关重要。

行业意义:数据配比走向科学化

当前,LLM 预训练正从“堆数据”转向“配数据”。GEM 的工作直接回应了业界对数据质量与平衡性的迫切需求。它不再依赖人工经验或简单的随机采样,而是通过严格的几何优化来指导数据选择。这一方向有望成为未来大模型训练的基础设施之一,尤其在多领域、多任务场景下,GEM 的价值将更为凸显。

目前该论文已提交至 ICML 2026,感兴趣的读者可通过 arXiv 获取完整技术细节。

延伸阅读

  1. 约束税:小语言模型在结构化输出中的有效性与正确性权衡测量
  2. AirCast-SR:基于潜在一致性扩散的千米级大气超分辨率基础模型
  3. SilIF:基于轮廓系数的隔离森林增强,用于无监督交易欺诈检测
查看原文