2022年09月02日:Reinforced Multi-Teacher Selection for Knowledge Distillation

  • 主页 /
  • 通知公告 /
  • 通知公告

2022年09月02日:Reinforced Multi-Teacher Selection for Knowledge Distillation

【报告内容】

汇报人:韩贤

汇报单位:河海大学

主题:《Reinforced Multi-Teacher Selection for Knowledge Distillation》

1.Introduction

2.Related Work

3.Reinforced Multi-Teacher Selection

4.Experiments

5.Conclusions

【报告总结】

1.本文的解决问题的思路是动态选择教师模型,是否可以把这样解决思路用在别的问题上?

答:知识蒸馏的过程是个学习的过程,所以不仅教师模型的选取很重要,样本的选取同样重要,所以感觉可以把强化学习的思路应用在选择训练样本上,把真正有用的知识进行萃取。

2.你能具体说一下,student模型是如何学习到Teacher模型的很好的分类效果?

答:我们知道对于一个复杂网络来说往往能够得到很好的分类效果,错误的概率比正确的概率会小很多很多,但是对于一个小网络来说它是无法学成这个效果的。我们为了去帮助小网络进行学习,就在小网络的softmax加一个T参数,加上这个T参数以后错误分类再经过softmax以后输出会变大,同样的正确分类会变小。这就人为的加大了训练的难度,一旦将T重新设置为1,分类结果会非常的接近于大网络的分类效果。

3.前文你有提到两种NLP模型,bert和roberta,两者有什么区别吗?

答:RoBERTa移除了BERT预训练中的下一语句预测(NSP)任务,转而采用动态掩蔽以实现训练轮次中的掩蔽标记变更,更大批准的训练规模确实能够提升模型性能,RoBERTa利用160 GB文本进行预训练。

4.该文章实验结果来看,学生模型如果越粗糙提升效果越高,训练样本的数量和时间一样,是不是对更加精细的学生模型不公平?

答:精细的学生模型由于参数较多,需要的训练时间本身就要更多,如果固定样本数量和训练时间确实对更精细的模型不公平,导致训练效果提升较低。

5.如何确定teacher model的候选数量,选择哪些模型作为teacher model?

答:该文章挑选的teacher model都是NLP各个领域比较经典的model,对于不同的任务而言有不同的特点,选择哪些teacher model,本篇文章没有涉及,但这是我们值得继续去探索的一个方向。

6.teacher model除了并行还可以进行哪些combinate?

答:并行具有并发和灵活的好处,我们也可以采取串行的方式,经过一个教师模型后再继续经过另外的教师模型。也可以采用分级的方法把教师模型进行分级训练,把第一层级的结果作为第二层级的输入。

7.策略函数里的action,只有1和0,是不是有点一刀切?

答:action的取值确实取的非常固定,1是采用,0是舍去对于相似的教师模型训练的结果,没必要直接舍取掉,可以把两种结果相结合来取得更好的训练效果。

8.文章一共提出了三种reward,是不是reward的定义可以继续深入研究?

答:是的,文章提出了三种reward,作者也在进行探索,并且在设计实验的时候,也对这三种reward进行了实验对比,对于reward的定义确实值得深入研究,去探索。

报告时间:2022年09月02日19:30

腾讯会议ID:981 3177 4321

点我下载本讨论课相关文献或PPT吧~(提取码:iipr)