2025年02月07日:Learning Language-guided Adaptive Hyper-modality Representation for Multimodal Sentiment Analysis
- 主页 /
- 通知公告 /
- 通知公告
2025年02月07日:Learning Language-guided Adaptive Hyper-modality Representation for Multimodal Sentiment Analysis
【报告内容】
汇报人: 高晨俣
汇报单位:福建理工大学
《Learning Language-guided Adaptive Hyper-modality Representation for Multimodal Sentiment Analysis》
1、Introduction
2、Method
3、Experiments
4、Conclusion
【报告总结】
1.待解决的问题描述
多模态情感分析(MSA)依赖语言、视觉和音频模态的联合信息,但视觉与音频模态中常包含情感无关或冲突信息(如背景噪声、无关视觉元素),干扰模型性能。现有方法未显式抑制此类噪声,导致多模态融合效果受限。
2.相关创新方案
提出自适应语言引导多模态Transformer(ALMT),核心为自适应超模态学习(AHL)模块。通过语言特征在不同尺度上引导视觉与音频模态生成低冗余的“超模态”表示,并结合跨模态融合Transformer,以语言为查询、超模态为键/值,实现互补特征融合,抑制无关信息干扰。
3.实验总结
在MOSI、MOSEI和CH-SIMS数据集上,ALMT在细粒度分类(如Acc-7)和回归任务(MAE)中均取得SOTA性能。消融实验验证AHL对冗余抑制的有效性,可视化显示模型能动态降低噪声帧的注意力权重,提升鲁棒性。模型参数量适中(2.5M),兼顾性能与效率。
4.未来工作
当前模型依赖大规模训练数据,但现有数据集规模较小,可能限制细粒度回归任务表现。未来可扩展数据集或探索高效训练策略(如半监督学习)。此外,需优化模态对齐机制,并研究动态调整模态权重的自适应策略,进一步提升泛化能力。
报告时间:2025年02月07日19:30
腾讯会议:311-5999-8176
点我下载本讨论课相关文献或PPT吧~(提取码:iipr)