2025年07月18日:A Time Series is Worth 64 Words: Long-Term Forecasting with Transformers

  • 主页 /
  • 通知公告 /
  • 通知公告

2025年07月18日:A Time Series is Worth 64 Words: Long-Term Forecasting with Transformers

【报告内容】

汇报人: 陈昱璠

汇报单位:福建理工大学

A Time Series is Worth 64 Words: Long-Term Forecasting with Transformers》

1、Introduction

2、Method

3、Experiments

4、Conclusion

【报告总结】

1、待解决的问题描述

1)传统Transformer的局限性:时间序列预测中,原始Transformer存在计算复杂度高(O(N2))、内存消耗大、难以捕获局部语义信息的问题,且无法有效利用长历史窗口。

2)通道混合的缺陷:多元时间序列预测中,通道混合(Channel-mixing)模型易受噪声干扰、需要大量训练数据,且难以学习不同通道的独立时序模式。

3)自监督学习的挑战:时间序列表示学习中,掩码策略和输出层设计不合理,导致模型难以学习高级抽象特征,且迁移能力有限。

2、相关创新方案

提出 PatchTST 模型,核心创新包含两点:

(1) 分块设计(Patching)将时间序列分割为子序列块,作为Transformer的输入标记。

优势:保留局部语义信息;将计算复杂度降低至 O(L/S)2(最高提速 22倍);支持更长历史窗口,提升预测精度。

(2) 通道独立性(Channel-independence)将多元序列拆分为独立单变量序列,共享同一Transformer权重并行处理。

优势:避免跨通道噪声干扰;减少过拟合风险(尤其小数据集);支持迁移学习(预训练与微调数据通道数可不同)。

(3) 自监督扩展

掩码自编码器:对非重叠块随机掩码(掩码率 40%),重构训练学习通用表示。

迁移能力:预训练模型迁移至新数据集(如 Electricity → Weather),性能仍优于监督基线。

3、实验总结

8 个公开数据集(包括 Weather、Traffic、Electricity 等)上的实验验证了 PatchTST 的有效性,主要结论如下:

1)预测性能超越 SOTA:在多变量长期预测中,PatchTST/64(输入 64 个补丁)和 PatchTST/42(输入 42 个补丁)的 MSE 较最佳 Transformer 基线平均降低 21.0% 和 20.2%,MAE 降低 16.7% 和 16.4%,且优于 DLinear。在大数据集(如 Traffic、Electricity)上优势更明显,例如 Traffic 数据集上 MSE 低至 0.349(自监督训练)。

2)计算效率提升:分块设计使训练时间显著减少,例如 Traffic 数据集上较无分块模型快 22 倍,Electricity 数据集快 19 倍。

3)长历史窗口的有效性:随着回溯窗口L从 96 增至 336,PatchTST 的 MSE 持续下降(如 Traffic 数据集从 0.518 降至 0.397),验证其利用长历史数据的能力,而传统 Transformer 模型对长窗口不敏感。

4)自监督与迁移学习优势:自监督预训练 + 微调的性能优于纯监督训练,例如 Traffic 数据集上 MSE 从 0.367 降至 0.349。跨数据集迁移预训练模型(如从 Electricity 迁移到 Weather)仍保持 SOTA 性能,验证特征迁移能力。

5)消融实验验证:分块和通道独立设计均为关键因素:移除分块或通道独立会导致性能下降,两者结合时效果最优。

4、未来工作

1)跨通道依赖建模:在通道独立性基础上引入图神经网络(GNN)或注意力机制,显式学习通道间相关性。

2)基础模型构建:将PatchTST作为时间序列基础模型(Foundation Model),支持多任务统一框架。

3)动态分块优化:自适应调整块长度 PP 和步长 SS,适应不同频率和模式的时间序列。

4)复杂场景扩展:验证模型在金融(如Exchange-rate)、高噪声场景的鲁棒性,探索抗分布偏移机制。

报告时间:2025071819:30

腾讯会议:311-5999-8176

点我下载本讨论课相关文献或PPT吧~(提取码:iipr)