2026年05月22日:DLF: Disentangled-Language-Focused Multimodal Sentiment Analysis

  • 主页 /
  • 通知公告 /
  • 通知公告

2026年05月22日:DLF: Disentangled-Language-Focused Multimodal Sentiment Analysis

【报告内容】

汇报人: 丁安宁

汇报单位:福建理工大学

主题:DLF: Disentangled-Language-Focused Multimodal Sentiment Analysis

1、Introduction

2、Method

3、Experiments

4、Conclusion

【报告总结】

1.待解决的问题描述

模态无差别对待带来的冗余:传统方法盲目认为所有模态同等重要。实际上,文本蕴含了最核心的情感语义,而声音与画面往往包含大量模态特异的冗余噪声。无差别的全面交互导致模型在特征提取阶段产生了信息冗余。

双向传输带来的冲突:传统架构多采用双向跨模态交互流。当音视频模态受到环境杂音等现实噪声干扰而产生弱势特征时,双向机制允许这些低质量特征反向干扰和污染原本高度精确的文本核心表征,引发严重的模态冲突,限制了模型性能的上限。

2.相关创新方案

特征解耦模块:设立共享特征与专属特征空间。提出了重构损失 、特定损失、改进三元组损失与软正交损失共同组成的几何空间联合约束。

语言聚焦吸引器:废除传统的双向交互,确保文本的主导地位。在交叉注意力机制计算中,强行将文本特异特征锁定为唯一的查询矩阵。

分层预测机制:打破传统的最终层分类机制,通过对特定特征层、共享特征层和最终融合层分别架设分类预测器,计算联合总损失。

3.实验总结

原刊主实验显示,DLF 模型在二分类准确率Acc_2上一举突破85.06%,全面超越了 MulT、MISA 等传统解耦与交叉自注意力机制,达到了SOTA水平。消融实验也证明了每个模块去掉后都会带来的性能下跌。

本地复现成果:我们在隔离的本地单 GPU 算力通道下成功完成了算法的闭环复现。本地测试取得了82.77%的二分类准确率与 82.85%的F1_score。两项核心指标的高度紧密咬合,硬核证明了模型提取出了极其健康的泛化表征;同时,皮尔逊相关系数达到0.7864。这强有力地论证DLF 框架具备高鲁棒性,更具备捕获人类情感连续时序起伏趋势的能力。

4.未来工作

长尾分布瓶颈:实验数据表明,模型在多分类(如 Acc_7)表现上受到 MOSI 数据集天然长尾效应的制约明显。未来计划引入重采样策略或对比学习负样本池增强技术,重点改善多分类长尾边缘处的决策容错率。

大语言模型参数高效适配器微调:计划将该框架的语言聚焦思想向现代大模型方向做跨界迁移。未来将尝试引入 Adapter机制 或 LoRA,冻结大语言模型(如 T5 或大语言模型底座)的百亿级预训练常识参数,仅将 LFA 与 FDM 作为轻量化即插即用模块注入其中。

报告时间:2026052219:30

腾讯会议:311-5999-8176

点我下载本讨论课相关文献或PPT吧~(提取码:iipr)