IntSeqBERT：用模数嵌入提升整数序列预测，性能提升7.4倍

突破传统限制：IntSeqBERT如何重新定义整数序列预测

在机器学习领域，处理整数序列一直是个棘手问题。传统基于分词（tokenised）的Transformer模型面临两大挑战：无法处理超出词汇表的数值（如天文数字般的阶乘和指数），以及难以捕捉序列中隐含的周期性算术结构。这些限制在数学研究的重要数据库——OEIS（整数序列在线百科全书） 上尤为明显。

近日，一项名为 IntSeqBERT 的新研究提出了一个创新的解决方案。它不再将整数视为孤立的符号，而是设计了一个双流Transformer编码器，专门用于OEIS上的掩码整数序列建模。

核心创新：双流编码与模数谱嵌入

IntSeqBERT的核心思想是为每个序列元素构建两个互补的表示：

连续对数尺度幅度嵌入：用于捕捉数值的大小信息。
正弦/余弦模数嵌入：针对100个余数（模数2到101）进行计算，旨在揭示数字的周期性、整除性等算术特性。

这两种嵌入通过FiLM（特征线性调制）层进行融合，使模型能够同时理解一个数的“量”和“质”（算术性质）。

训练与性能：显著超越基线

研究团队在274,705条OEIS序列上对模型进行联合训练，使用了三个预测头：幅度回归、符号分类和100个模数的余数预测。

在大型配置（9150万参数）下，IntSeqBERT在测试集上取得了令人瞩目的成绩：

幅度准确率达到95.85%
平均模数准确率（MMA）达到50.38%

与标准的分词Transformer基线相比，这两项指标分别提升了8.9个百分点和4.5个百分点。一项消融实验证实，模数流贡献了MMA增益中的15.2个百分点，并为幅度准确率额外带来了6.2个百分点的提升，凸显了其关键作用。

落地应用：从预测到具体整数

模型的预测（幅度、符号、余数）如何转化为具体的下一个整数？研究引入了一个基于概率中国剩余定理（CRT）的求解器。这一步骤将模型的优势转化为实际的预测能力，结果令人印象深刻：在下一项预测任务中，IntSeqBERT的Top-1准确率达到19.09%，相比基线模型的2.59%，实现了7.4倍的提升。

深入洞察：为何模数嵌入有效？

研究并未止步于性能提升，还通过模数谱分析提供了理论洞察。分析发现，归一化信息增益（NIG）与欧拉函数比值φ(m)/m之间存在强烈的负相关（r = -0.851, p < 10^{-28}）。

这意味着什么？φ(m)/m衡量的是一个模数m与其互质数的比例。比值越小（对于合数），模型从中学习到的信息增益反而越高。这为以下观点提供了实证证据：合数模数能够通过中国剩余定理的聚合，更高效地捕捉OEIS序列中的算术结构。简单来说，模型学会了利用数字的“零件”（余数）来拼凑和理解整体规律。

对AI行业的启示

IntSeqBERT的研究意义超出了数学序列预测本身：

处理大范围离散值的新范式：它为处理其他领域（如代码生成、金融时间序列）中具有极大动态范围或特定结构规律的离散数据提供了新思路。
领域知识与架构的融合：成功地将数论知识（模运算、中国剩余定理）深度嵌入到神经网络架构中，展示了领域专家知识在提升模型性能上的巨大潜力。
超越“黑箱”：通过可解释的分析（如模数谱分析），研究部分揭示了模型为何有效，推动了可解释AI在复杂任务中的应用。

这项研究标志着在理解和预测具有深层数学结构的序列方面迈出了重要一步，为AI在科学发现和形式推理领域的应用开辟了新的可能性。

IntSeqBERT：通过模数谱嵌入学习OEIS中的算术结构