新上线1个月前0 投票

TSFMAudit：时间序列基础模型的数据污染审计新方法

背景：时间序列基础模型面临的数据污染挑战

随着时间序列基础模型（TSFM）在大规模语料库上预训练成为常态，一个关键问题浮出水面：评估数据集是否在预训练阶段已被模型“见过”？这种数据污染会导致性能评估过于乐观，但传统审计方法在时间序列领域面临独特挑战——信号连续且异构，且多数语料库缺乏详细文档。

TSFMAudit：基于微调适应动力学的检测方案

来自多所高校及机构的研究团队提出了 TSFMAudit，这是首个专门针对TSFM预训练污染审计的工作。其核心洞察在于：被污染的模型在微调时表现出异常高效的适应能力——损失下降更快，且骨干网络参数变动更小。

具体而言，TSFMAudit 通过设计一个“探测适配器”（probe），对目标数据集进行轻量级微调，然后观测两个关键指标：

损失下降速度：污染数据集的损失曲线通常更陡峭
骨干网络移动距离：污染数据集需要更少的参数更新来拟合

这些信号组合形成污染指纹，从而区分干净与污染数据集。

实验验证：覆盖6个模型与187个数据集

研究团队在 6个主流TSFM（如TimesNet、PatchTST等）和 187个公开数据集 上进行了评估，利用文档化的训练来源证据作为监督标签。与从大语言模型（LLM）领域改编的 10种基线方法 对比，TSFMAudit 在多个指标上均取得领先。

意义与展望

这项研究填补了时间序列基础模型可信度评估的重要空白。随着TSFM在金融、气象、能源等关键领域的落地应用，数据污染审计将成为模型选型和部署的必备环节。未来工作可能进一步扩展到多模态时间序列场景，以及更细粒度的污染类型识别。

论文以22页篇幅详细阐述了问题形式化、方法设计及实验分析，目前已发布于arXiv（2605.26161）。

延伸阅读

相关资讯

利用图同构网络实现NR-V2X车联网低延迟中继选择

10-K报告中的哪些内容真正重要？全文与风险因素的情绪价值因聚合层级而异

分支策略优化：面向沙盒的原生语言智能体强化学习新方法

QFireNet：量子增强U-Net用于Sentinel-2影像 wildfire 分割