IJCAI Oral:弱监督实现精确目标检测,上交大提出协同学习框架

简介: 训练一个高准确率的检测模型需要大量精细标注的图片数据,其成本很高。本文提出了一种弱监督协同学习框架,仅使用粗略标签的图片训练目标检测模型,测试结果显示其定位精确率和检测准确率均显著优于目前最先进的方法。

目标检测是机器视觉的基本问题,在视频监控、无人驾驶等场景都有广泛应用。随着深度学习的兴起,近年来涌现了大量优秀的目标检测模型。然而,训练一个高准确率的检测模型需要大量的以包围框形式精细标注的图片数据作为模型监督条件,需要花费大量的人力物力。

同时,我们可以从互联网轻松获取海量粗标注的图片,如利用Flickr的标签。因此,研究如何在弱监督条件下,即仅提供粗略图片类别标注,训练目标检测模型,具有重要的意义。已有学者探索了基于多示例学习构建弱监督条件下的目标检测模型学习方法,但是模型的精确度仍然难以令人满意。

论文:Collaborative Learning for Weakly Supervised Object Detection

7fa73c84124872f514479d31381b120bd0eb52bf

论文链接:https://arxiv.org/abs/1802.03531

本论文提出了一种弱监督协同学习(WSCL)的框架,将弱监督学习网络和强监督学习网络连接成为一个整体网络,通过一致性损失约束强监督和弱监督学习网络具有相似的预测结果,通过强监督和弱监督学习网络间部分特征共享保证两个网络在感知水平上的一致性,从而实现强监督和弱监督学习网络的协同增强学习。弱监督协同学习框架结构如下图所示:

fa668b4ac2c7c4798cf1afddec0320ef2cf44ad9

弱监督协同学习框架(以目标检测为例)

基于上述弱监督协同学习框架,论文设计了一个端到端的弱监督协同检测网络(WSCDN),弱监督和强监督的检测模块分别采用了目前最优秀WSDDNRCNN网络结构。其网络结构如下图所示。

c8743ae83b2a590690cab048ee984d5cd582cf8a

弱监督协同目标检测学习模型


在每次学习迭代中,整个目标检测网络只将图像级标签作为弱监督,并且通过预测一致性损失并行优化强监督和弱监督检测网络

下图是WSCDN训练时,强监督和弱监督检测网络准确率的变化曲线。

52634ee179a12cc569b2be83d3a73a9d1766fc8e

可以看出,在训练的初始阶段,弱监督检测网络准确率高于强监督检测网络。随着协同训练轮次的增多,两者的准确率均逐渐上升,但强监督检测网络提升的速度更快,并很快超越弱监督检测网络。在整个训练过程中,两类检测网络相互协同,达到了共同提高的效果。

我们比较了弱监督协同检测网络与其他相关弱监督检测方法在PASCAL VOC 2007测试图片上的效果(见下图)。其中,IW是单独训练得到的弱监督检测模型,CSS是分开迭代训练得到的强监督检测模型,CLWCLS分别是通过弱监督协同检测网络得到的强监督和弱监督检测网络。可以看出,我们的强监督检测网络明显优于其他检测器网络,表现在可以得到更全面和更紧凑的包围框预测。

0b61aac6bb3c87ec3ad008cb223a97556b4c0f46

我们用PASCAL VOC 2007和PASCAL VOC 2012数据集进行了测试。结果表明,弱监督协同检测网络的定位精确率以及检测准确率均显著优于目前最先进的方法

弱监督协同检测网络与其他目前最先进的方法在PASCAL VOC 2007 测试数据集上检测精确度的比较(AP) (%)

b8ad537388569f33931ff4da8011211cc16f26e4

弱监督协同检测网络与其他目前最先进的方法在PASCAL VOC 2007 trainval set 上定位精确度的比较(CorLoc) (%)

c43cdccadf7b5713586e24260443a4c9b73d8374

弱监督协同检测网络与其他目前最先进的方法在PASCAL VOC 2012 测试数据集上检测精确度的比较(AP) (%)

ff2704ab22919f6d4c34218922a2e815ac0d6a09

弱监督协同检测网络与其他目前最先进的方法在PASCAL VOC 2012 trainval set 上定位精确度的比较(CorLoc) (%)

b66f9d3858b71c729722af30e5f01fb733a3d03d

原文发布时间为:2018-05-14本文作者:上海交通大学未来媒体网络协同创新中心本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”。原文链接: IJCAI Oral:弱监督实现精确目标检测,上交大提出协同学习框架
相关文章
|
2月前
|
机器学习/深度学习 编解码 PyTorch
复旦大学提出SemiSAM | 如何使用SAM来增强半监督医学图像分割?这或许是条可行的路
复旦大学提出SemiSAM | 如何使用SAM来增强半监督医学图像分割?这或许是条可行的路
76 0
|
11月前
|
机器学习/深度学习 算法 数据可视化
CVPR 2023|两行代码高效缓解视觉Transformer过拟合,美图&国科大联合提出正则化方法DropKey
CVPR 2023|两行代码高效缓解视觉Transformer过拟合,美图&国科大联合提出正则化方法DropKey
239 0
|
11月前
|
机器学习/深度学习
斯坦福最新研究警告:别太迷信大模型涌现能力,那是度量选择的结果(2)
斯坦福最新研究警告:别太迷信大模型涌现能力,那是度量选择的结果
116 0
|
11月前
|
机器学习/深度学习 编解码 人工智能
斯坦福最新研究警告:别太迷信大模型涌现能力,那是度量选择的结果(1)
斯坦福最新研究警告:别太迷信大模型涌现能力,那是度量选择的结果
136 0
|
11月前
|
机器学习/深度学习 人工智能 达摩院
AAAI 2023 Oral | 图像质量堪忧干扰视觉识别,达摩院提出更鲁棒框架(1)
AAAI 2023 Oral | 图像质量堪忧干扰视觉识别,达摩院提出更鲁棒框架
132 0
|
11月前
|
人工智能 达摩院 算法
AAAI 2023 Oral | 图像质量堪忧干扰视觉识别,达摩院提出更鲁棒框架(3)
AAAI 2023 Oral | 图像质量堪忧干扰视觉识别,达摩院提出更鲁棒框架
140 0
|
11月前
|
人工智能 达摩院 算法
AAAI 2023 Oral | 图像质量堪忧干扰视觉识别,达摩院提出更鲁棒框架(2)
AAAI 2023 Oral | 图像质量堪忧干扰视觉识别,达摩院提出更鲁棒框架
144 0
|
11月前
|
机器学习/深度学习 人工智能 搜索推荐
AAAI 2023 | 超越SOTA 3.27%,上交大等提出自适应本地聚合新方法
AAAI 2023 | 超越SOTA 3.27%,上交大等提出自适应本地聚合新方法
138 0
|
11月前
|
机器学习/深度学习 自然语言处理 算法
NeurIPS 2022 | 四分钟内就能训练目标检测器,商汤基模型团队是怎么做到的?
NeurIPS 2022 | 四分钟内就能训练目标检测器,商汤基模型团队是怎么做到的?
|
11月前
|
机器学习/深度学习 人工智能 运维
ECCV 2022 Oral | 无需微调即可推广,上交大、上海人工智能实验室等提出基于配准的少样本异常检测框架
ECCV 2022 Oral | 无需微调即可推广,上交大、上海人工智能实验室等提出基于配准的少样本异常检测框架