2023年02月24日:InternImage Exploring Large-Scale Vision Foundation Models with Deformable Convolutions

  • 主页 /
  • 通知公告 /
  • 通知公告

2023年02月24日:InternImage Exploring Large-Scale Vision Foundation Models with Deformable Convolutions

【报告内容】

汇报人:李牧元

单位:福建工程学院

主题:《InternImage Exploring Large-Scale Vision Foundation Models with Deformable Convolutions》

1、Introduction

2、 Method

3、Experiment

4、Conclusion

【报告总结】

1、问这篇文章作者给出的Stacking rules是做什么的?

答:因为该模型变量由12个超参数决定。其搜索空间太大,无法穷尽地枚举并找到最佳变体。为了减少搜索空间,作者将现有技术的设计经验总结为4条规则,其中第一条规则使最后三个阶段的信道编号由第一阶段的信道号C1确定,第二条规则使组编号与阶段的信道数相对应。对于不同阶段的堆叠块数,作者将堆叠模式简化为“AABA”,这意味着阶段1、2和4的块数相同,并且不大于阶段3的块数,如最后两个规则所示。使用这些规则,可以通过仅使用4个超参数(C1,C′,L1,L3)来定义InternetImage变体。

2、问:这篇论文的创新点是什么?

答:作者引入了InternetImage,这是一种基于CNN的新的大规模基础模型,可以为多功能视觉任务(如图像分类、对象检测和语义分割)提供强大的表示。InternetImage可以获得与设计良好的大规模视觉Transformer相当或更好的性能,Transformer使用大量数据进行训练,这表明CNN也是大规模视觉基础模型研究的一个重要选择

3、问:这篇文章的主要贡献是什么?

答:(1) 提出了一个新的基于CNN的大型视觉基础模型InterImage。这是第一个有效扩展到超过10亿个参数和4亿个训练图像的CNN,并实现了与最先进的ViT相当甚至更好的性能,这表明卷积模型也是大规模模型研究的一个值得探索的方向。

(2) 使用改进的3×3 DCN算子,通过引入长距离相关性和自适应空间聚合,成功地将CNN扩展到大规模数据训练,并探索了以该算子为中心的定制基本块、堆叠规则和缩放策略。这些设计有效地利用了算子,使模型能够从大规模参数和数据中获得收益。

(3) 在包括图像分类、对象检测、实例和语义分割在内的代表性视觉任务上评估了所提出的模型,并通过将模型大小从3000万到10亿,数据范围从100万到4亿,将其与最先进的CNN和ViTs进行了比较。具体而言,本文模型具有不同的参数大小,可以始终优于ImageNet上的现有技术。InterImageB在ImageNet-1K数据集上训练就达到了84.9%的前1精度,超过了基于CNN的同行至少1.1个点。利用大规模参数(即10亿)和训练数据(即4.27亿),InterImage-H的前1精度进一步提高到89.2%,接近最好的ViTs和混合ViTs。

报告时间:2023年02月24日19:30

腾讯会议:371 3868 6615

点我下载本讨论课相关文献或PPT吧~(提取码:iipr)