通知公告 - 智能信息处理中心

2025年07月18日：A Time Series is Worth 64 Words: Long-Term Forecasting with Transformers

主页 /
通知公告 /
通知公告

2025年07月18日：A Time Series is Worth 64 Words: Long-Term Forecasting with Transformers

【报告内容】

汇报人：陈昱璠

汇报单位：福建理工大学

《A Time Series is Worth 64 Words: Long-Term Forecasting with Transformers》

1、Introduction

2、Method

3、Experiments

4、Conclusion

【报告总结】

1、待解决的问题描述

（1）传统Transformer的局限性：时间序列预测中，原始Transformer存在计算复杂度高（O(N²)）、内存消耗大、难以捕获局部语义信息的问题，且无法有效利用长历史窗口。

（2）通道混合的缺陷：多元时间序列预测中，通道混合（Channel-mixing）模型易受噪声干扰、需要大量训练数据，且难以学习不同通道的独立时序模式。

（3）自监督学习的挑战：时间序列表示学习中，掩码策略和输出层设计不合理，导致模型难以学习高级抽象特征，且迁移能力有限。

2、相关创新方案

提出 PatchTST 模型，核心创新包含两点：

(1) 分块设计（Patching）将时间序列分割为子序列块，作为Transformer的输入标记。

优势：保留局部语义信息；将计算复杂度降低至 O(L/S)²（最高提速 22倍）；支持更长历史窗口，提升预测精度。

(2) 通道独立性（Channel-independence）将多元序列拆分为独立单变量序列，共享同一Transformer权重并行处理。

优势：避免跨通道噪声干扰；减少过拟合风险（尤其小数据集）；支持迁移学习（预训练与微调数据通道数可不同）。

(3) 自监督扩展

掩码自编码器：对非重叠块随机掩码（掩码率 40%），重构训练学习通用表示。

迁移能力：预训练模型迁移至新数据集（如 Electricity → Weather），性能仍优于监督基线。

3、实验总结

在 8 个公开数据集（包括 Weather、Traffic、Electricity 等）上的实验验证了 PatchTST 的有效性，主要结论如下：

（1）预测性能超越 SOTA：在多变量长期预测中，PatchTST/64（输入 64 个补丁）和 PatchTST/42（输入 42 个补丁）的 MSE 较最佳 Transformer 基线平均降低 21.0% 和 20.2%，MAE 降低 16.7% 和 16.4%，且优于 DLinear。在大数据集（如 Traffic、Electricity）上优势更明显，例如 Traffic 数据集上 MSE 低至 0.349（自监督训练）。

（2）计算效率提升：分块设计使训练时间显著减少，例如 Traffic 数据集上较无分块模型快 22 倍，Electricity 数据集快 19 倍。

（3）长历史窗口的有效性：随着回溯窗口L从 96 增至 336，PatchTST 的 MSE 持续下降（如 Traffic 数据集从 0.518 降至 0.397），验证其利用长历史数据的能力，而传统 Transformer 模型对长窗口不敏感。

（4）自监督与迁移学习优势：自监督预训练 + 微调的性能优于纯监督训练，例如 Traffic 数据集上 MSE 从 0.367 降至 0.349。跨数据集迁移预训练模型（如从 Electricity 迁移到 Weather）仍保持 SOTA 性能，验证特征迁移能力。

（5）消融实验验证：分块和通道独立设计均为关键因素：移除分块或通道独立会导致性能下降，两者结合时效果最优。

4、未来工作

（1）跨通道依赖建模：在通道独立性基础上引入图神经网络（GNN）或注意力机制，显式学习通道间相关性。

（2）基础模型构建：将PatchTST作为时间序列基础模型（Foundation Model），支持多任务统一框架。

（3）动态分块优化：自适应调整块长度 PP 和步长 SS，适应不同频率和模式的时间序列。

（4）复杂场景扩展：验证模型在金融（如Exchange-rate）、高噪声场景的鲁棒性，探索抗分布偏移机制。

报告时间：2025年07月18日19:30

腾讯会议：311-5999-8176

点我下载本讨论课相关文献或PPT吧~(提取码：iipr)