2025年07月18日:A Time Series is Worth 64 Words: Long-Term Forecasting with Transformers
- 主页 /
- 通知公告 /
- 通知公告
2025年07月18日:A Time Series is Worth 64 Words: Long-Term Forecasting with Transformers
【报告内容】
汇报人: 陈昱璠
汇报单位:福建理工大学
《A Time Series is Worth 64 Words: Long-Term Forecasting with Transformers》
1、Introduction
2、Method
3、Experiments
4、Conclusion
【报告总结】
1、待解决的问题描述
(1)传统Transformer的局限性:时间序列预测中,原始Transformer存在计算复杂度高(O(N2))、内存消耗大、难以捕获局部语义信息的问题,且无法有效利用长历史窗口。
(2)通道混合的缺陷:多元时间序列预测中,通道混合(Channel-mixing)模型易受噪声干扰、需要大量训练数据,且难以学习不同通道的独立时序模式。
(3)自监督学习的挑战:时间序列表示学习中,掩码策略和输出层设计不合理,导致模型难以学习高级抽象特征,且迁移能力有限。
2、相关创新方案
提出 PatchTST 模型,核心创新包含两点:
(1) 分块设计(Patching)将时间序列分割为子序列块,作为Transformer的输入标记。
优势:保留局部语义信息;将计算复杂度降低至 O(L/S)2(最高提速 22倍);支持更长历史窗口,提升预测精度。
(2) 通道独立性(Channel-independence)将多元序列拆分为独立单变量序列,共享同一Transformer权重并行处理。
优势:避免跨通道噪声干扰;减少过拟合风险(尤其小数据集);支持迁移学习(预训练与微调数据通道数可不同)。
(3) 自监督扩展
掩码自编码器:对非重叠块随机掩码(掩码率 40%),重构训练学习通用表示。
迁移能力:预训练模型迁移至新数据集(如 Electricity → Weather),性能仍优于监督基线。
3、实验总结
在 8 个公开数据集(包括 Weather、Traffic、Electricity 等)上的实验验证了 PatchTST 的有效性,主要结论如下:
(1)预测性能超越 SOTA:在多变量长期预测中,PatchTST/64(输入 64 个补丁)和 PatchTST/42(输入 42 个补丁)的 MSE 较最佳 Transformer 基线平均降低 21.0% 和 20.2%,MAE 降低 16.7% 和 16.4%,且优于 DLinear。在大数据集(如 Traffic、Electricity)上优势更明显,例如 Traffic 数据集上 MSE 低至 0.349(自监督训练)。
(2)计算效率提升:分块设计使训练时间显著减少,例如 Traffic 数据集上较无分块模型快 22 倍,Electricity 数据集快 19 倍。
(3)长历史窗口的有效性:随着回溯窗口L从 96 增至 336,PatchTST 的 MSE 持续下降(如 Traffic 数据集从 0.518 降至 0.397),验证其利用长历史数据的能力,而传统 Transformer 模型对长窗口不敏感。
(4)自监督与迁移学习优势:自监督预训练 + 微调的性能优于纯监督训练,例如 Traffic 数据集上 MSE 从 0.367 降至 0.349。跨数据集迁移预训练模型(如从 Electricity 迁移到 Weather)仍保持 SOTA 性能,验证特征迁移能力。
(5)消融实验验证:分块和通道独立设计均为关键因素:移除分块或通道独立会导致性能下降,两者结合时效果最优。
4、未来工作
(1)跨通道依赖建模:在通道独立性基础上引入图神经网络(GNN)或注意力机制,显式学习通道间相关性。
(2)基础模型构建:将PatchTST作为时间序列基础模型(Foundation Model),支持多任务统一框架。
(3)动态分块优化:自适应调整块长度 PP 和步长 SS,适应不同频率和模式的时间序列。
(4)复杂场景扩展:验证模型在金融(如Exchange-rate)、高噪声场景的鲁棒性,探索抗分布偏移机制。
报告时间:2025年07月18日19:30
腾讯会议:311-5999-8176
点我下载本讨论课相关文献或PPT吧~(提取码:iipr)