Zero-shot Detection论文总结

Zero-shot Object Detection

缺点: 需要结合文本信息,没办法完全根据图片进行检测

综述

A Survey of Vision-Language Pre-Trained Models
视觉语言多模态综述
介绍了视觉语言多模态的1. 特征表示 2. 模态交互 3. 预训练任务 4. 下游任务 5. 方向
2022年之前的VL预训练模型和常用数据集

网页

Zero-Shot Object Detection介绍

介绍了Zero-Shot Object Detection的基本概念,以及如何使用Region-CLIP进行Zero-Shot Object Detection

Zero-Shot Object Detection案例

一个样例代码,使用CLIP进行检测

论文

Zero-Shot Detection


  1. 利用BackBone抽出来图像的特征TFT_F
  2. TFT_F上进行检测,得到目标的位置信息TLT_L
  3. TFT_F上进行语义预测,得到目标的文本信息TST_S
  4. TF,TL,TST_F,T_L,T_S拼接起来,进行置信度的预测,得到了最终的预测结果(x,y,w,h,cls)
  5. 损失函数由1)位置损失 2)语义损失 3)置信度损失组成
  6. 在验证过程中分为Test-Seen,Test-Unseen,Test-Mix三种情况

解决问题:

  1. RPN可能无法提议出那么多没见过的物体
  2. 基于YOLOv2,性能强大
  3. 简单容易理解

Zero-Shot Object Detection

方法:

  1. 两阶段检测器结构,对区域建议框内的物体抽取出图像特征
  2. 通过映射将图像特征映射到文本特征空间(通过wordEmbedding得到)
  3. 在公共空间计算图像特征和文本特征的相似度,得到未见物体的类别

解决问题:

  1. 将未见物体分为背景的解决
    • 使用固定的背景类:在嵌入空间中为背景添加一个固定的向量
    • 将多个潜在的类分配给背景对象,不断的将背景框标记为对象反复训练
  2. 密集采样嵌入空间:数据集中可见类太少了导致公共空间稀疏,未见类的语义和视觉之间无法对齐
    • 使用除了未见类之外的额外数据补充训练

Region-CLIP

  1. 利用RPN从图像中提取出region,抽取出特征
  2. 利用现有文本解析器,从文本中提取出concept,抽取出特征
  3. 利用CLIP计算region和concept的相似度,得到region-text的配对
  4. 利用三个损失函数训练模型