2023年04月28日:Turning a CLIP Model into a Scene Text Detector

  • 主页 /
  • 通知公告 /
  • 通知公告

2023年04月28日:Turning a CLIP Model into a Scene Text Detector

【报告内容】

汇报人:韩贤

汇报单位:河海大学

主题:《Turning a CLIP Model into a Scene Text Detector》

1、Introduction

2、Related Work

3、Methodology

4、Experiments

5、Conclusion

【报告总结】

1.待解决的问题描述

不同于通用图像,文本图像天然的具有视觉和文字两种模态的信息,近期已有结合跨模态的视觉语言模型的信息(视觉、语义、文本知识)来提升文本检测性能的工作,但是现有利用文本知识的方法都需要预训练任务的过程。

2.相关创新方案

本文提出一个可插拔模块TCM(Turning a CLIP Mode),无需设计预训练任务,可对齐视觉和文本信息特征。

3.实验总结

通过实验证明:TCM框架可改进现有场景文本检测器; TCM框架可以提高检测器的少样本训练能力; TCM框架可以提高检测器的少样本训练能力。

4.未来工作

图像中的文本存在误检,文本特征相似的区域有高响应,未来会加入语义理解得任务去解决。

报告时间:2023年042819:30

腾讯会议:371 3868 6615

点我下载本讨论课相关文献或PPT吧~(提取码:iipr)