新上线今天0 投票
TSFMAudit:时间序列基础模型的数据污染审计新方法
背景:时间序列基础模型面临的数据污染挑战
随着时间序列基础模型(TSFM)在大规模语料库上预训练成为常态,一个关键问题浮出水面:评估数据集是否在预训练阶段已被模型“见过”?这种数据污染会导致性能评估过于乐观,但传统审计方法在时间序列领域面临独特挑战——信号连续且异构,且多数语料库缺乏详细文档。
TSFMAudit:基于微调适应动力学的检测方案
来自多所高校及机构的研究团队提出了 TSFMAudit,这是首个专门针对TSFM预训练污染审计的工作。其核心洞察在于:被污染的模型在微调时表现出异常高效的适应能力——损失下降更快,且骨干网络参数变动更小。
具体而言,TSFMAudit 通过设计一个“探测适配器”(probe),对目标数据集进行轻量级微调,然后观测两个关键指标:
- 损失下降速度:污染数据集的损失曲线通常更陡峭
- 骨干网络移动距离:污染数据集需要更少的参数更新来拟合
这些信号组合形成污染指纹,从而区分干净与污染数据集。
实验验证:覆盖6个模型与187个数据集
研究团队在 6个主流TSFM(如TimesNet、PatchTST等)和 187个公开数据集 上进行了评估,利用文档化的训练来源证据作为监督标签。与从大语言模型(LLM)领域改编的 10种基线方法 对比,TSFMAudit 在多个指标上均取得领先。
意义与展望
这项研究填补了时间序列基础模型可信度评估的重要空白。随着TSFM在金融、气象、能源等关键领域的落地应用,数据污染审计将成为模型选型和部署的必备环节。未来工作可能进一步扩展到多模态时间序列场景,以及更细粒度的污染类型识别。
论文以22页篇幅详细阐述了问题形式化、方法设计及实验分析,目前已发布于arXiv(2605.26161)。