2023年04月28日:Turning a CLIP Model into a Scene Text Detector
- 主页 /
- 通知公告 /
- 通知公告
2023年04月28日:Turning a CLIP Model into a Scene Text Detector
【报告内容】
汇报人:韩贤
汇报单位:河海大学
主题:《Turning a CLIP Model into a Scene Text Detector》
1、Introduction
2、Related Work
3、Methodology
4、Experiments
5、Conclusion
【报告总结】
1.待解决的问题描述
不同于通用图像,文本图像天然的具有视觉和文字两种模态的信息,近期已有结合跨模态的视觉语言模型的信息(视觉、语义、文本知识)来提升文本检测性能的工作,但是现有利用文本知识的方法都需要预训练任务的过程。
2.相关创新方案
本文提出一个可插拔模块TCM(Turning a CLIP Mode),无需设计预训练任务,可对齐视觉和文本信息特征。
3.实验总结
通过实验证明:TCM框架可改进现有场景文本检测器; TCM框架可以提高检测器的少样本训练能力; TCM框架可以提高检测器的少样本训练能力。
4.未来工作
图像中的文本存在误检,文本特征相似的区域有高响应,未来会加入语义理解得任务去解决。
报告时间:2023年04月28日19:30
腾讯会议:371 3868 6615
点我下载本讨论课相关文献或PPT吧~(提取码:iipr)