通知公告 - 智能信息处理中心

2026年01月17日：Multimodal Transformer for Unaligned Multimodal Language Sequences

【报告内容】

汇报人：丁安宁

汇报单位：福建理工大学

主题：Multimodal Transformer for Unaligned Multimodal Language Sequences

1、Introduction

2、Method

3、Experiments

4、Conclusion

【报告总结】

1.待解决的问题描述

1）多模态数据的固有非对齐性：人类的多模态语言数据（文本、视觉、音频）具有变长的特性，各模态的采样率不一致（音频以Hz采样，视频以FPS采样，文本按单词计数），导致数据在时间上无法直接对应。

2）传统方法的局限性：现有的主流方法通常依赖于词级对齐，即通过手动切割或填充将视觉和音频特征强行对齐到文本单词的时间跨度上。这种做法存在两个主要缺陷：需要专业的领域知识进行特征工程；破坏了原始数据的连续性，丢失了重要的长距离依赖信息。

2.相关创新方案

本文提出的MulT模型，核心创新点如下：

1）跨模态注意力机制：与传统的自注意力不同，它通过让一种模态作为Query，去查询另一种模态的Key和Value。

2）机制：自动计算跨越时间的注意力权重，从而实现从源模态到目标模态的潜在适应，无需任何强制对齐。

3）端到端架构设计：

预处理：使用1D卷积层将不同模态的特征维度投影到统一维度。

位置编码：为未对齐的序列注入时间信息。

多路融合：设计了多个跨模态Transformer模块（如V-L,A-L等）来强化各模态特征，最后通过拼接和自注意力Transformer进行时序整合与预测。

3.实验总结

1）数据集：在CMU-MOSI,CMU-MOSEI和IEMOCAP三个基准数据集上进行了测试。

2）主要结果：

未对齐场景：MulT展现了极好的性能。在未对齐数据上，MulT比使用了CTC辅助对齐的基线模型性能高出5%-15%，证明了其处理异步数据的强大能力。

对齐场景：即使在传统模型擅长的已对齐数据上，MulT也取得了最先进的结果。

消融实验：证明了以文本为目标模态的跨模态融合效果最好，且跨模态注意力优于简单的早期融合或晚期融合。

4.未来工作

1）扩展应用领域：鉴于MulT在处理未对齐序列上的成功，未来可以将其应用于其他不需要或难以进行强对齐的多模态任务。

2）方法论推广：论文鼓励重新审视那些传统上认为必须进行对齐的任务。跨模态注意力机制提供了一种更具竞争力的替代方案，可以直接在原始数据流上捕获长距离依赖，可能会成为处理多模态序列的新范式。

报告时间：2026年01月16日19:30

腾讯会议：311-5999-8176

点我下载本讨论课相关文献或PPT吧~(提取码：iipr)