Trans论文 | Proposal Learning用于半监督的目标检测 - 推荐

2024-01-02推荐

关注并星标

从此不迷路

计算机视觉研究院

公众号ID ｜ ComputerVisionGzq

学习群 ｜ 扫码在主页获取加入方式

计算机视觉研究院专栏

作者：Edison_G

这次分享的以半监督目标检测为研究对象，通过对有标签和无标签数据的训练，提高了基于候选的目标检测器（即two-stages目标检测器）的检测精度。然而，由于真值标签的不可用性，在未标记的数据上训练目标检测器是非常重要的。

概要

为了解决这个问题，于是就提出了一个 proposal learning方法从标记和未标记的数据中学习候选的特征和预测。该方法由自监督候选学习模块和基于一致性的候选学习模块组成。在自监督候选学习模块中，分别提出了一个候选位置损失和一个对比损失来学习上下文感知和噪声鲁棒的候选特征；在基于一致性的候选学习模块中，将一致性损失应用于候选的边界框分类和回归预测，以学习噪声稳健的候选特征和预测。

最后，在COCO数据集上对所有可用的有标签和无标签数据进行了实验。结果表明，新方法一致地提高了全监督基线的精度。特别是在结合了数据蒸馏之后，新方法与全监督基线和数据蒸馏基线相比，平均提高AP约2.0%和0.9%。

新框架

Problem Definition

在半监督目标检测（ Semi-Supervised Object Detec-

tion (SSOD) ）中，一组标记数据D_l={（I，G）}和一组给出了未标记数据的D_u={I}，其中I和G分别表示图像和真值标签。在目标检测中，G由一组具有位置和目标类的对象组成。SSOD的目标是训练目标检测器，包括标记数据D_l和未标记数据D_u。

The Overall Framework

对于每一个标记数据（I，G）∈D_l，根据标准的全监督损失定义训练目标检测器是简单的，如下公式：

其中第二项分别表示RPN损失和R-CNN损失。该损失在反向传播过程中优化θb、θrpn、θr-cnn、θcls、θreg去训练目标检测器。有关损失函数的更多详细信息，请参见：

Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. Faster R-CNN: Towards real-time object detection with region proposal networks. IEEE transactions on pattern analysis and machine intelligence, 39(6):1137–1149, 2017

将上面公式中定义的标准全监督损失应用于标记数据dL，将自监督候选学习损失Lself和基于一致性的候选学习损失Lcons应用于未标记数据dU。通过优化反向传播过程中的损失方程中的θb，θrpn，θr-cnn，θcls，θreg，θself，对目标检测器进行了训练：

然后将总损失写成如下：

Self-Supervised Proposal Learning

为了计算对比损失，使用instance discrimination作为pretext task：

结合上面的两个公式中的候选位置损失以及对比损失，自监督的候选学习损失写为：

Consistency-Based Proposal Learning

为了进一步训练抗噪声目标检测器，应用一致性损失来确保噪声候选预测与其原始候选预测之间的一致性。更准确地说，将一致性损失应用于边界框分类和回归预测。对于边界框分类预测C的一致性损失，使用KL散度作为损失，以强制噪声候选的类预测及其原始候选一致。

为了进一步确保候选预测的一致性，在下列公式中计算一致性损失，以强制来自噪声候选的目标位置预测及其原始候选一致：

结合上面的两个公式，基于一致性的候选学习损失如下：

实验

© THE END

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入！

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域，主要致力于人脸检测、人脸识别，多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架，我们这次改革不同点就是，我们要着重」研究「。之后我们会针对相应领域分享实践过程，让大家真正体会摆脱理论的真实场景，培养爱动手编程爱动脑思考的习惯！

VX：2311123606