GEM几何熵混合：大模型数据配比新方法，准确率提升1.2%

大语言模型（LLM）的预训练效果正越来越依赖于数据构成而非单纯的数据量。然而，如何实现最优数据混合一直是个难题：传统的人工分类存在本体论错位，而欧几里得聚类又无法处理嵌入向量的各向异性问题。针对这一挑战，来自学术界的研究团队提出了GEM（几何熵混合） 框架，将数据配比问题重新定义为超球面上的变分问题，并引入混合平衡正则化项，为数据筛选提供了全新的几何视角。

核心创新：从欧氏空间到超球面的跃迁

GEM的核心在于解耦生成先验，并通过可证明的 MM（Minorize-Maximize）算法优化目标函数。该方法有效抑制了聚类坍缩现象，能够发现欧几里得启发式方法无法识别的平衡语义结构。简单来说，传统方法在数据嵌入空间中做聚类时，往往由于各向异性导致聚类结果偏向高密度区域，而GEM通过几何熵约束使得聚类更加均匀，从而挖掘出更丰富、更均衡的数据分布。

可扩展性与可解释性并重

为了将这一几何保真度扩展到网络规模的语料库，研究团队采用了教师-学生蒸馏技术。同时，他们引入了几何影响评分（GIS），用于生成可解释的类别体系。这意味着GEM不仅能在数学上优化数据混合，还能为用户提供清晰的类别解释，让研究人员理解“为什么某些数据被归为一类”。

实验验证：1.1B参数模型的显著提升

在包含 1.1B 参数的模型上进行实验，GEM 在与 DoReMi、RegMix 等主流混合策略整合后，平均下游准确率提升了高达 1.2%，并建立了一个新的最优水平。更重要的是，GEM 提供了一个鲁棒的坐标系统，使得数据混合的效果变得可预测，这对大规模预训练的实际工程落地至关重要。

行业意义：数据配比走向科学化

当前，LLM 预训练正从“堆数据”转向“配数据”。GEM 的工作直接回应了业界对数据质量与平衡性的迫切需求。它不再依赖人工经验或简单的随机采样，而是通过严格的几何优化来指导数据选择。这一方向有望成为未来大模型训练的基础设施之一，尤其在多领域、多任务场景下，GEM 的价值将更为凸显。

目前该论文已提交至 ICML 2026，感兴趣的读者可通过 arXiv 获取完整技术细节。

GEM：几何熵混合——大模型预训练数据配比的最优解

核心创新：从欧氏空间到超球面的跃迁

可扩展性与可解释性并重

实验验证：1.1B参数模型的显著提升

行业意义：数据配比走向科学化

延伸阅读

相关资讯