2025年11月21日:InceptionNeXt: When Inception Meets ConvNeXt
- 主页 /
- 通知公告 /
- 通知公告
2025年11月21日:InceptionNeXt: When Inception Meets ConvNeXt
【报告内容】
汇报人: 梁帅鹏
汇报单位:河海大学
InceptionNeXt: When Inception Meets ConvNeXt
1、Introduction
2、Method
3、Experiments
4、Conclusion
【报告总结】
1.待解决的问题描述
ConvNeXt虽然解决了精度问题,但它引入了一个新的、严重的问题训练速度慢。
在实际应用中,这会带来训练时间更长。一个模型可能需要花费几周甚至几个月来训练,而不是几天。其次是计算成本更高。在云计算环境中,这意味着需要支付更多的GPU费用。第三是环保考虑。更长的训练时间意味着更多的能源消耗,更大的碳足迹。正是基于这个观察,本文的作者提出了一个核心问题:能否在保持ConvNeXt的高精度同时,获得ResNet级别的训练速度?
2.相关创新方案
Inception Depthwise Convolution。对输入特征图X,他们在通道维度上将其分成四个分支:
第一个分支(占50%的通道):恒等映射(Identity Mapping)
这个分支什么都不做,直接把输入通过。这样做的好处是零计算成本,但能保留原始信息。
第二个分支(占1/6的通道):3×3深度卷积
这个小方核能够捕获局部的空间信息,比如相邻像素之间的关系。3×3是一个很好的选择,因为它的计算很快。
第三个分支(占1/6的通道):1×k水平带状核卷积
这个卷积核是长条形的,默认是1×11。它能够捕获水平方向的长距离依赖关系,比如物体在图片中从左到右的连贯性。
第四个分支(占1/6的通道):k×1垂直带状核卷积
这个卷积核也是长条形的,默认是11×1。它能够捕获垂直方向的长距离依赖关系,比如物体在图片中从上到下的连贯性。
最后,这四个分支的输出在通道维度上拼接到一起。
3.实验总结
1)在分类任务下InceptionNeXt在保持精度的同时,实现了显著的速度提升。特别是相比ConvNeXt,我们获得了1.57倍的训练加速和1.20倍的推理加速。
2)在语义分割任务下InceptionNeXt 的各个尺寸模型均显著超越了包括 ResNet、PVT 和 PoolFormer 等在内的多种主流骨干网络。
4.未来工作
1)主要在中等规模的模型上验证。在超大的模型(Large、Huge)上的效果还不清楚。
2)推理速度的提升主要是通过PyTorch和CUDA的优化实现的。在其他框架上,可能效果会有所不同。
3)虽然验证了分类和分割,但其他任务如检测、实例分割等的详细结果还可以更深入探索。
报告时间:2025年11月21日19:30
腾讯会议:311-5999-8176
点我下载本讨论课相关文献或PPT吧~(提取码:iipr)