2025年02月07日:Learning Language-guided Adaptive Hyper-modality Representation for Multimodal Sentiment Analysis

  • 主页 /
  • 通知公告 /
  • 通知公告

2025年02月07日:Learning Language-guided Adaptive Hyper-modality Representation for Multimodal Sentiment Analysis

【报告内容】

汇报人: 高晨俣

汇报单位:福建理工大学

Learning Language-guided Adaptive Hyper-modality Representation for Multimodal Sentiment Analysis》

1、Introduction

2、Method

3、Experiments

4、Conclusion

【报告总结】

1.待解决的问题描述

多模态情感分析(MSA)依赖语言、视觉和音频模态的联合信息,但视觉与音频模态中常包含情感无关或冲突信息(如背景噪声、无关视觉元素),干扰模型性能。现有方法未显式抑制此类噪声,导致多模态融合效果受限。

2.相关创新方案

提出自适应语言引导多模态Transformer(ALMT),核心为自适应超模态学习(AHL)模块。通过语言特征在不同尺度上引导视觉与音频模态生成低冗余的“超模态”表示,并结合跨模态融合Transformer,以语言为查询、超模态为键/值,实现互补特征融合,抑制无关信息干扰。

3.实验总结

MOSI、MOSEI和CH-SIMS数据集上,ALMT在细粒度分类(如Acc-7)和回归任务(MAE)中均取得SOTA性能。消融实验验证AHL对冗余抑制的有效性,可视化显示模型能动态降低噪声帧的注意力权重,提升鲁棒性。模型参数量适中(2.5M),兼顾性能与效率。

4.未来工作

当前模型依赖大规模训练数据,但现有数据集规模较小,可能限制细粒度回归任务表现。未来可扩展数据集或探索高效训练策略(如半监督学习)。此外,需优化模态对齐机制,并研究动态调整模态权重的自适应策略,进一步提升泛化能力。

报告时间:2025020719:30

腾讯会议:311-5999-8176

点我下载本讨论课相关文献或PPT吧~(提取码:iipr)