通知公告 - 智能信息处理中心

2022年09月02日：Reinforced Multi-Teacher Selection for Knowledge Distillation

主页 /
通知公告 /
通知公告

2022年09月02日：Reinforced Multi-Teacher Selection for Knowledge Distillation

【报告内容】

汇报人：韩贤

汇报单位：河海大学

主题：《Reinforced Multi-Teacher Selection for Knowledge Distillation》

1.Introduction

2.Related Work

3.Reinforced Multi-Teacher Selection

4.Experiments

5.Conclusions

【报告总结】

1.本文的解决问题的思路是动态选择教师模型，是否可以把这样解决思路用在别的问题上？

答：知识蒸馏的过程是个学习的过程，所以不仅教师模型的选取很重要，样本的选取同样重要，所以感觉可以把强化学习的思路应用在选择训练样本上，把真正有用的知识进行萃取。

2.你能具体说一下，student模型是如何学习到Teacher模型的很好的分类效果？

答：我们知道对于一个复杂网络来说往往能够得到很好的分类效果，错误的概率比正确的概率会小很多很多，但是对于一个小网络来说它是无法学成这个效果的。我们为了去帮助小网络进行学习，就在小网络的softmax加一个T参数，加上这个T参数以后错误分类再经过softmax以后输出会变大,同样的正确分类会变小。这就人为的加大了训练的难度，一旦将T重新设置为1，分类结果会非常的接近于大网络的分类效果。

3.前文你有提到两种NLP模型，bert和roberta，两者有什么区别吗？

答：RoBERTa移除了BERT预训练中的下一语句预测（NSP）任务，转而采用动态掩蔽以实现训练轮次中的掩蔽标记变更，更大批准的训练规模确实能够提升模型性能，RoBERTa利用160 GB文本进行预训练。

4.该文章实验结果来看，学生模型如果越粗糙提升效果越高，训练样本的数量和时间一样，是不是对更加精细的学生模型不公平？

答：精细的学生模型由于参数较多，需要的训练时间本身就要更多，如果固定样本数量和训练时间确实对更精细的模型不公平，导致训练效果提升较低。

5.如何确定teacher model的候选数量，选择哪些模型作为teacher model？

答：该文章挑选的teacher model都是NLP各个领域比较经典的model，对于不同的任务而言有不同的特点，选择哪些teacher model，本篇文章没有涉及，但这是我们值得继续去探索的一个方向。

6.teacher model除了并行还可以进行哪些combinate？

答：并行具有并发和灵活的好处，我们也可以采取串行的方式，经过一个教师模型后再继续经过另外的教师模型。也可以采用分级的方法把教师模型进行分级训练，把第一层级的结果作为第二层级的输入。

7.策略函数里的action，只有1和0，是不是有点一刀切？

答：action的取值确实取的非常固定，1是采用，0是舍去对于相似的教师模型训练的结果，没必要直接舍取掉，可以把两种结果相结合来取得更好的训练效果。

8.文章一共提出了三种reward，是不是reward的定义可以继续深入研究？

答：是的，文章提出了三种reward，作者也在进行探索，并且在设计实验的时候，也对这三种reward进行了实验对比，对于reward的定义确实值得深入研究，去探索。

报告时间：2022年09月02日19:30

腾讯会议ID：981 3177 4321

点我下载本讨论课相关文献或PPT吧~(提取码：iipr)