Zero-shot Detection论文总结

2023-11-14 论文记录 Zero-shot Detection 0 评论字数统计: 593(字) 阅读时长: 2(分)

Zero-shot Object Detection

缺点: 需要结合文本信息,没办法完全根据图片进行检测

综述

A Survey of Vision-Language Pre-Trained Models
视觉语言多模态综述
介绍了视觉语言多模态的1. 特征表示 2. 模态交互 3. 预训练任务 4. 下游任务 5. 方向
2022年之前的VL预训练模型和常用数据集

网页

Zero-Shot Object Detection介绍

介绍了Zero-Shot Object Detection的基本概念，以及如何使用Region-CLIP进行Zero-Shot Object Detection

Zero-Shot Object Detection案例

一个样例代码,使用CLIP进行检测

论文

Zero-Shot Detection

利用BackBone抽出来图像的特征 $T_F$
在 $T_F$ 上进行检测,得到目标的位置信息 $T_L$
在 $T_F$ 上进行语义预测,得到目标的文本信息 $T_S$
把 $T_F,T_L,T_S$ 拼接起来,进行置信度的预测,得到了最终的预测结果(x,y,w,h,cls)
损失函数由1)位置损失 2)语义损失 3)置信度损失组成
在验证过程中分为Test-Seen,Test-Unseen,Test-Mix三种情况

解决问题:

RPN可能无法提议出那么多没见过的物体
基于YOLOv2,性能强大
简单容易理解

Zero-Shot Object Detection

方法:

两阶段检测器结构,对区域建议框内的物体抽取出图像特征
通过映射将图像特征映射到文本特征空间(通过wordEmbedding得到)
在公共空间计算图像特征和文本特征的相似度,得到未见物体的类别

解决问题:

将未见物体分为背景的解决
- 使用固定的背景类:在嵌入空间中为背景添加一个固定的向量
- 将多个潜在的类分配给背景对象,不断的将背景框标记为对象反复训练
密集采样嵌入空间:数据集中可见类太少了导致公共空间稀疏,未见类的语义和视觉之间无法对齐
- 使用除了未见类之外的额外数据补充训练

Region-CLIP

利用RPN从图像中提取出region,抽取出特征
利用现有文本解析器,从文本中提取出concept,抽取出特征
利用CLIP计算region和concept的相似度,得到region-text的配对
利用三个损失函数训练模型

本文链接： https://gladdduck.github.io/2023/11/14/学术-Zero-shotDetection论文总结/

版权声明： 本博客所有文章除特别声明外，均采用 CC BY 4.0 CN协议许可协议。转载请注明出处！

GladdduckKB Master

我写的个人简介。