通知公告 - 智能信息处理中心

2023年04月28日：Turning a CLIP Model into a Scene Text Detector

【报告内容】

汇报人：韩贤

汇报单位：河海大学

主题：《Turning a CLIP Model into a Scene Text Detector》

1、Introduction

2、Related Work

3、Methodology

4、Experiments

5、Conclusion

【报告总结】

1.待解决的问题描述

不同于通用图像，文本图像天然的具有视觉和文字两种模态的信息，近期已有结合跨模态的视觉语言模型的信息(视觉、语义、文本知识)来提升文本检测性能的工作，但是现有利用文本知识的方法都需要预训练任务的过程。

2.相关创新方案

本文提出一个可插拔模块TCM(Turning a CLIP Mode)，无需设计预训练任务，可对齐视觉和文本信息特征。

3.实验总结

通过实验证明：TCM框架可改进现有场景文本检测器; TCM框架可以提高检测器的少样本训练能力; TCM框架可以提高检测器的少样本训练能力。

4.未来工作

图像中的文本存在误检，文本特征相似的区域有高响应，未来会加入语义理解得任务去解决。

报告时间：2023年04月28日19:30

腾讯会议：371 3868 6615

点我下载本讨论课相关文献或PPT吧~(提取码：iipr)