语义增强的检索增强时间序列预测:SERAF框架突破非平稳性难题
时间序列预测是金融、气象、能源等领域的核心任务,传统模型依赖历史模式外推,但在非平稳环境下,单纯基于数值相似度的检索往往失效。来自 ICML 2026 工作坊的新研究提出 SERAF(Semantics-Enhanced Retrieval-Augmented Time Series Forecasting)框架,通过引入文本语义信息,实现数值与语义的双重检索,显著提升了非平稳序列的预测能力。
从 RAG 到时间序列:检索为何不够?
受检索增强生成(RAG)启发,已有研究尝试从历史数据中检索与当前片段相似的序列段来辅助预测。然而,当数据分布发生漂移(即非平稳性)时,数值相似度高的历史片段可能对应完全不同的未来走势,导致检索“南辕北辙”。例如,股市在牛熊转换期,量价形态相似但后续走势迥异,纯数值检索无法捕捉这种隐含的语义变化。
SERAF 的双重检索机制
SERAF 的核心创新在于多模态检索:不仅检索时间序列本身,还检索由序列自动生成的文本描述。具体来说,框架包含三个关键步骤:
- 文本描述生成:利用预训练语言模型将每个时间序列片段转化为自然语言描述,如“上升趋势伴随成交量放大,随后出现顶部反转形态”。
- 双重检索:以当前序列及其文本描述为查询,分别从历史数据库中检索数值相似的片段和语义相似的片段,得到两组互补的候选集合。
- 选择性融合:通过注意力机制或门控网络,自适应地融合两组检索结果中的历史模式及对应未来值,生成最终预测。
这种设计使得模型在数值相似度低但语义相似度高的情况下(如不同资产但具有相同技术形态),仍能有效利用历史经验。
实验结果与行业意义
在七个真实数据集(涵盖电力、交通、气象、金融等领域)上的实验表明,SERAF 在均方误差和平均绝对误差上均显著优于包括 Transformer、N-BEATS、TimesNet 在内的最新基线模型。尤其在非平稳性较强的金融时间序列上,SERAF 的预测精度提升超过 15%。
该研究揭示了语义信息在时间序列分析中的巨大潜力。随着大语言模型的发展,将数值信号与文本语义结合正成为 AI for Science 的新方向。SERAF 不仅为时间序列预测提供了新范式,也为其他依赖历史检索的时序任务(如异常检测、缺失值填补)提供了可借鉴的思路。
小结
SERAF 框架通过引入语义增强的检索,有效弥补了纯数值方法在非平稳场景下的不足。它标志着时间序列预测从“数值驱动”迈向“语义+数值双轮驱动”的阶段。尽管文本生成质量与计算开销仍是挑战,但该工作无疑为领域打开了新的研究窗口。