通知公告 - 智能信息处理中心

2023年02月24日：InternImage Exploring Large-Scale Vision Foundation Models with Deformable Convolutions

主页 /
通知公告 /
通知公告

2023年02月24日：InternImage Exploring Large-Scale Vision Foundation Models with Deformable Convolutions

【报告内容】

汇报人：李牧元

单位：福建工程学院

主题：《InternImage Exploring Large-Scale Vision Foundation Models with Deformable Convolutions》

1、Introduction

2、 Method

3、Experiment

4、Conclusion

【报告总结】

1、问这篇文章作者给出的Stacking rules是做什么的？

答：因为该模型变量由12个超参数决定。其搜索空间太大，无法穷尽地枚举并找到最佳变体。为了减少搜索空间，作者将现有技术的设计经验总结为4条规则，其中第一条规则使最后三个阶段的信道编号由第一阶段的信道号C1确定，第二条规则使组编号与阶段的信道数相对应。对于不同阶段的堆叠块数，作者将堆叠模式简化为“AABA”，这意味着阶段1、2和4的块数相同，并且不大于阶段3的块数，如最后两个规则所示。使用这些规则，可以通过仅使用4个超参数（C1，C′，L1，L3）来定义InternetImage变体。

2、问：这篇论文的创新点是什么？

答：作者引入了InternetImage，这是一种基于CNN的新的大规模基础模型，可以为多功能视觉任务（如图像分类、对象检测和语义分割）提供强大的表示。InternetImage可以获得与设计良好的大规模视觉Transformer相当或更好的性能，Transformer使用大量数据进行训练，这表明CNN也是大规模视觉基础模型研究的一个重要选择

3、问：这篇文章的主要贡献是什么？

答：（1）提出了一个新的基于CNN的大型视觉基础模型InterImage。这是第一个有效扩展到超过10亿个参数和4亿个训练图像的CNN，并实现了与最先进的ViT相当甚至更好的性能，这表明卷积模型也是大规模模型研究的一个值得探索的方向。

（2）使用改进的3×3 DCN算子，通过引入长距离相关性和自适应空间聚合，成功地将CNN扩展到大规模数据训练，并探索了以该算子为中心的定制基本块、堆叠规则和缩放策略。这些设计有效地利用了算子，使模型能够从大规模参数和数据中获得收益。

（3）在包括图像分类、对象检测、实例和语义分割在内的代表性视觉任务上评估了所提出的模型，并通过将模型大小从3000万到10亿，数据范围从100万到4亿，将其与最先进的CNN和ViTs进行了比较。具体而言，本文模型具有不同的参数大小，可以始终优于ImageNet上的现有技术。InterImageB在ImageNet-1K数据集上训练就达到了84.9%的前1精度，超过了基于CNN的同行至少1.1个点。利用大规模参数（即10亿）和训练数据（即4.27亿），InterImage-H的前1精度进一步提高到89.2%，接近最好的ViTs和混合ViTs。

报告时间：2023年02月24日19:30

腾讯会议：371 3868 6615

点我下载本讨论课相关文献或PPT吧~(提取码：iipr)