2025年11月21日:InceptionNeXt: When Inception Meets ConvNeXt

  • 主页 /
  • 通知公告 /
  • 通知公告

2025年11月21日:InceptionNeXt: When Inception Meets ConvNeXt

【报告内容】

汇报人: 梁帅鹏

汇报单位:河海大学

InceptionNeXt: When Inception Meets ConvNeXt

1、Introduction

2、Method

3、Experiments

4、Conclusion

【报告总结】

1.待解决的问题描述

ConvNeXt虽然解决了精度问题,但它引入了一个新的、严重的问题训练速度慢。

在实际应用中,这会带来训练时间更长。一个模型可能需要花费几周甚至几个月来训练,而不是几天。其次是计算成本更高。在云计算环境中,这意味着需要支付更多的GPU费用。第三是环保考虑。更长的训练时间意味着更多的能源消耗,更大的碳足迹。正是基于这个观察,本文的作者提出了一个核心问题:能否在保持ConvNeXt的高精度同时,获得ResNet级别的训练速度?

2.相关创新方案

Inception Depthwise Convolution。对输入特征图X,他们在通道维度上将其分成四个分支:

第一个分支(占50%的通道):恒等映射(Identity Mapping)

这个分支什么都不做,直接把输入通过。这样做的好处是零计算成本,但能保留原始信息。

第二个分支(占1/6的通道):3×3深度卷积

这个小方核能够捕获局部的空间信息,比如相邻像素之间的关系。3×3是一个很好的选择,因为它的计算很快。

第三个分支(占1/6的通道):1×k水平带状核卷积

这个卷积核是长条形的,默认是1×11。它能够捕获水平方向的长距离依赖关系,比如物体在图片中从左到右的连贯性。

第四个分支(占1/6的通道):k×1垂直带状核卷积

这个卷积核也是长条形的,默认是11×1。它能够捕获垂直方向的长距离依赖关系,比如物体在图片中从上到下的连贯性。

最后,这四个分支的输出在通道维度上拼接到一起。

3.实验总结

1)在分类任务下InceptionNeXt在保持精度的同时,实现了显著的速度提升。特别是相比ConvNeXt,我们获得了1.57倍的训练加速和1.20倍的推理加速。

2)在语义分割任务下InceptionNeXt 的各个尺寸模型均显著超越了包括 ResNet、PVT 和 PoolFormer 等在内的多种主流骨干网络。

4.未来工作

1)主要在中等规模的模型上验证。在超大的模型(Large、Huge)上的效果还不清楚。

2)推理速度的提升主要是通过PyTorch和CUDA的优化实现的。在其他框架上,可能效果会有所不同。

3)虽然验证了分类和分割,但其他任务如检测、实例分割等的详细结果还可以更深入探索。

报告时间:2025112119:30

腾讯会议:311-5999-8176

点我下载本讨论课相关文献或PPT吧~(提取码:iipr)