通知公告 - 智能信息处理中心

2025年11月21日：InceptionNeXt: When Inception Meets ConvNeXt

主页 /
通知公告 /
通知公告

2025年11月21日：InceptionNeXt: When Inception Meets ConvNeXt

【报告内容】

汇报人：梁帅鹏

汇报单位：河海大学

InceptionNeXt: When Inception Meets ConvNeXt

1、Introduction

2、Method

3、Experiments

4、Conclusion

【报告总结】

1.待解决的问题描述

ConvNeXt虽然解决了精度问题，但它引入了一个新的、严重的问题训练速度慢。

在实际应用中，这会带来训练时间更长。一个模型可能需要花费几周甚至几个月来训练，而不是几天。其次是计算成本更高。在云计算环境中，这意味着需要支付更多的GPU费用。第三是环保考虑。更长的训练时间意味着更多的能源消耗，更大的碳足迹。正是基于这个观察，本文的作者提出了一个核心问题：能否在保持ConvNeXt的高精度同时，获得ResNet级别的训练速度？

2.相关创新方案

Inception Depthwise Convolution。对输入特征图X，他们在通道维度上将其分成四个分支：

第一个分支（占50%的通道）：恒等映射（Identity Mapping）

这个分支什么都不做，直接把输入通过。这样做的好处是零计算成本，但能保留原始信息。

第二个分支（占1/6的通道）：3×3深度卷积

这个小方核能够捕获局部的空间信息，比如相邻像素之间的关系。3×3是一个很好的选择，因为它的计算很快。

第三个分支（占1/6的通道）：1×k水平带状核卷积

这个卷积核是长条形的，默认是1×11。它能够捕获水平方向的长距离依赖关系，比如物体在图片中从左到右的连贯性。

第四个分支（占1/6的通道）：k×1垂直带状核卷积

这个卷积核也是长条形的，默认是11×1。它能够捕获垂直方向的长距离依赖关系，比如物体在图片中从上到下的连贯性。

最后，这四个分支的输出在通道维度上拼接到一起。

3.实验总结

1)在分类任务下InceptionNeXt在保持精度的同时，实现了显著的速度提升。特别是相比ConvNeXt，我们获得了1.57倍的训练加速和1.20倍的推理加速。

2)在语义分割任务下InceptionNeXt 的各个尺寸模型均显著超越了包括 ResNet、PVT 和 PoolFormer 等在内的多种主流骨干网络。

4.未来工作

1)主要在中等规模的模型上验证。在超大的模型（Large、Huge）上的效果还不清楚。

2)推理速度的提升主要是通过PyTorch和CUDA的优化实现的。在其他框架上，可能效果会有所不同。

3)虽然验证了分类和分割，但其他任务如检测、实例分割等的详细结果还可以更深入探索。

报告时间：2025年11月21日19:30

腾讯会议：311-5999-8176

点我下载本讨论课相关文献或PPT吧~(提取码：iipr)