备案控制台

开发者社区

开发者社区雷锋网文章正文

复旦大学Ph.D沈志强：用于目标检测的DSOD模型

2017-10-24 1831

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 目标检测作为一个基础的计算机视觉任务，在自动驾驶、视频监控等领域拥有非常广泛的应用前景。目前主流的目标检测方法都严重依赖于在大规模数据集（如ImageNet）上预训练初始模型。

目标检测作为一个基础的计算机视觉任务，在自动驾驶、视频监控等领域拥有非常广泛的应用前景。目前主流的目标检测方法都严重依赖于在大规模数据集（如ImageNet）上预训练初始模型。而在DSOD: Learning Deeply Supervised Object Detectors from Scratch这篇论文中，作者通过分析深度检测模型从头训练存在的问题，提出了四个原则，他们根据这些原则构建了DSOD模型，该模型在三个标准数据集（PASCAL VOC 07, 12和COCO）上都达到了顶尖的性能。这篇论文已被ICCV2017收录。

在近期雷锋网 AI研习社的线上分享会上，该论文的第一作者——复旦大学Ph.D沈志强为我们带来了对DSOD的详细解读，与此同时也介绍了他在CVPR 2017和ICCV 2017上的一些其它研究工作。

沈志强，复旦大学Ph.D，UIUC ECE系访问学者，导师Thomas S. Huang教授。研究兴趣包括：计算机视觉（目标检测、视频描述、细粒度分类等），深度学习，机器学习等。他曾在因特尔中国研究院（Intel Labs China）进行为期一年的实习研究，期间合作者包括研究院Jianguo Li博士和在读博士生Zhuang Liu等。

分享内容：

很高兴与大家分享我们的最新的工作DSOD，这篇论文已经被ICCV 2017 所收录。

复旦大学Ph.D沈志强：用于目标检测的DSOD模型（ICCV 2017） | 分享总结

众所周知，计算机视觉有几个比较重要的分类，包括目标分类、定位、目标检测、实例分割，前两个分类是针对单个目标，后两个分类是针对多个目标，DSOD主要是针对目标检测。

复旦大学Ph.D沈志强：用于目标检测的DSOD模型（ICCV 2017） | 分享总结

说到目标检测，大家可能会想到如下几个比较有代表性的方法：R-CNN、Faster-RCNN、YOLO、SSD。下图是关于他们的一些介绍。

复旦大学Ph.D沈志强：用于目标检测的DSOD模型（ICCV 2017） | 分享总结

ImageNet预训练模型的限制：一是模型结构是固定的，你不可能改变它的结构，二是会有learning bias，三是会出现domain不匹配的情况。我们的思路是从头训练检测器，但是我们用R-CNN和Faster-RCNN都没能得到较好的表现。

复旦大学Ph.D沈志强：用于目标检测的DSOD模型（ICCV 2017） | 分享总结

简单回顾下Rol pooling，如下图所示：

复旦大学Ph.D沈志强：用于目标检测的DSOD模型（ICCV 2017） | 分享总结

它其实就是一个max pooling：

复旦大学Ph.D沈志强：用于目标检测的DSOD模型（ICCV 2017） | 分享总结

可以在下图中看到forward和backward情况，把Rol pooling去掉这个框架就类似于YOLO和SSD。

复旦大学Ph.D沈志强：用于目标检测的DSOD模型（ICCV 2017） | 分享总结

几个原则：一是Proposal-free。去掉Rol pooling，虽然对模型的表现影响不大，但这一点非常重要。

复旦大学Ph.D沈志强：用于目标检测的DSOD模型（ICCV 2017） | 分享总结

复旦大学Ph.D沈志强：用于目标检测的DSOD模型（ICCV 2017） | 分享总结

二是Deep Supervision。采用Dense Block，能避免梯度消失的情况。

复旦大学Ph.D沈志强：用于目标检测的DSOD模型（ICCV 2017） | 分享总结

三是Dense Prediction Structure。大大减少了模型的参数量，特征包含更多信息。

复旦大学Ph.D沈志强：用于目标检测的DSOD模型（ICCV 2017） | 分享总结

四是Stem Block。采用stem结构，好处是能减少输入图片信息的丢失。

复旦大学Ph.D沈志强：用于目标检测的DSOD模型（ICCV 2017） | 分享总结

下面是DSOD整体结构：

复旦大学Ph.D沈志强：用于目标检测的DSOD模型（ICCV 2017） | 分享总结

这是我们做的一些对比实验，可以看到增加这些结构之后性能提升的百分点：

复旦大学Ph.D沈志强：用于目标检测的DSOD模型（ICCV 2017） | 分享总结

下面是在PASCAL VOC2007上的实验结果，可以看到Faster-RCNN和R-CNN速度很慢，YOLO和SSD的速度非常快，但是mAP不高。最下面是我们没有用预训练模型做的一些对比实验，可以看到Faster-RCNN和R-CNN均以失败告终，最后的一行的实验加入COCO后mAP值提升，说明DSOD模型本身的泛化能力非常强。

复旦大学Ph.D沈志强：用于目标检测的DSOD模型（ICCV 2017） | 分享总结

下面是在PASCAL VOC2012上的实验结果，可以看到DSOD有不错的mAP值。

复旦大学Ph.D沈志强：用于目标检测的DSOD模型（ICCV 2017） | 分享总结

接下来是在COCO上面的一些结果，对比起来DSOD的也有很好的性能。

复旦大学Ph.D沈志强：用于目标检测的DSOD模型（ICCV 2017） | 分享总结

最后是一些实际的检测结果，可以看到bounding box对目标的检测非常贴合。

复旦大学Ph.D沈志强：用于目标检测的DSOD模型（ICCV 2017） | 分享总结

论文地址： https://arxiv.org/abs/1708.01241

代码：https://github.com/szq0214/DSOD

模型可视化示例：http://ethereon.github.io/netscope/#/gist/b17d01f3131e2a60f9057b5d3eb9e04d

复旦大学Ph.D沈志强：用于目标检测的DSOD模型（ICCV 2017） | 分享总结

最后简单介绍下我们在CVPR 2017的相关工作Dense Video captioning，主要是做视频描述。在视频当中包含很多内容，而这些内容并不一致，因此视频描述相对来说会比较困难。下图是一些示例。

复旦大学Ph.D沈志强：用于目标检测的DSOD模型（ICCV 2017） | 分享总结

网络结构如下图所示。具体细节大家可以参见我们的论文Weakly Supervised Dense Video Captioning，论文地址：https://arxiv.org/abs/1704.01502

复旦大学Ph.D沈志强：用于目标检测的DSOD模型（ICCV 2017） | 分享总结

接下来是我们在ICCV 2017上的工作，主要是做网络压缩。我们用了一个衡量channel是否重要的值来训练模型，然后剔除掉不太重要的特征层。论文代码我们也放在github上了。具体细节大家可以参见论文Learning Efficient Convolutional Networks through Network Slimming，论文地址：https://arxiv.org/abs/1708.06519

复旦大学Ph.D沈志强：用于目标检测的DSOD模型（ICCV 2017） | 分享总结

本文作者：Non

本文转自雷锋网禁止二次转载，原文链接

文章标签：

计算机视觉

机器学习/深度学习

固态存储

玄学酱

目录

相关文章

星辰大海AI领航

|

3月前

|

机器学习/深度学习数据挖掘网络安全

【论文速递】CVPR2022 - 用于半监督物体检测的尺度等效蒸馏

【论文速递】CVPR2022 - 用于半监督物体检测的尺度等效蒸馏

星辰大海AI领航

28 0 0

星辰大海AI领航

|

3月前

|

机器学习/深度学习数据可视化计算机视觉

【论文速递】CVPR2022 - 检测测器的局部和全局知识蒸馏

【论文速递】CVPR2022 - 检测测器的局部和全局知识蒸馏

星辰大海AI领航

22 1 1

星辰大海AI领航

|

3月前

|

存储计算机视觉

【论文速递】WACV2023 - 循环相似注意力的小样本医学图像分割

【论文速递】WACV2023 - 循环相似注意力的小样本医学图像分割

星辰大海AI领航

45 0 0

Matlab科研工作室

|

7月前

|

机器学习/深度学习传感器算法

NGO-BP回归预测 | Matlab 北方苍鹰优化算法优化BP神经网络回归预测

NGO-BP回归预测 | Matlab 北方苍鹰优化算法优化BP神经网络回归预测

Matlab科研工作室

65 0 0

-开发达人-

|

8月前

|

机器学习/深度学习自然语言处理算法

KDD 2023 | 第四范式开发用于分子性质预测的生成式3D预训练模型

KDD 2023 | 第四范式开发用于分子性质预测的生成式3D预训练模型

-开发达人-

85 0 0

5i77ajz5u7ji6

|

11月前

|

机器学习/深度学习编解码数据可视化

分割冠军 | 超越Swin v2、PvT v2等模型，ViT-Adaptiver实现ADE20K冠军60.5mIoU

分割冠军 | 超越Swin v2、PvT v2等模型，ViT-Adaptiver实现ADE20K冠军60.5mIoU

5i77ajz5u7ji6

264 0 0

-开发达人-

|

11月前

|

存储人工智能自然语言处理

7 Papers | 浙大研究获SIGMOD 2023最佳论文；GPT-4拿下最难数学推理数据集新SOTA

7 Papers | 浙大研究获SIGMOD 2023最佳论文；GPT-4拿下最难数学推理数据集新SOTA

-开发达人-

249 0 0

5i77ajz5u7ji6

|

11月前

|

机器学习/深度学习编解码自然语言处理

清华大学提出DAT | DCN+Swin Transformer会碰撞出怎样的火花？？？（一）

清华大学提出DAT | DCN+Swin Transformer会碰撞出怎样的火花？？？（一）

5i77ajz5u7ji6

105 0 0

CVHub

|

11月前

|

SQL 机器学习/深度学习人工智能

港科大 Arxiv 2023 | DA-BEV: 3D目标检测新 SOTA，一种强大的深度信息挖掘方法

港科大 Arxiv 2023 | DA-BEV: 3D目标检测新 SOTA，一种强大的深度信息挖掘方法

CVHub

105 0 0

長安

|

机器学习/深度学习数据可视化计算机视觉

【论文速递】CVPR2022 - 检测器的局部和全局知识蒸馏

【论文速递】CVPR2022 - 检测器的局部和全局知识蒸馏

長安

88 0 0

【论文速递】CVPR2022 - 检测器的局部和全局知识蒸馏

雷锋网

热门文章

最新文章

疑犯追踪第一季/全集Person Of Interest迅雷下载

【直播系列之一】1篇文章看懂峰值带宽、流量、转码、连麦、截图五大直播计费方式

理解事务的4种隔离级别

阿里云网站域名备案流程全过程讲解(图文)

在服务器的raid1中安装windows server系统（踩坑记录）

如何用Vue实现简易的富文本编辑器，并支持Markdown语法

怎么才能快速提高小程序留存率！

程序员请放下浮躁的心

如何解决域中普通用户只限于10台客户机加入域的数量问题

博客园模板样式优化

未来技术纵横谈：区块链、物联网与虚拟现实的融合与创新

软件体系结构 - 缓存技术（9）缓存穿透

提升Android应用性能的实用技巧

工具变量法(两阶段最小二乘法2SLS)线性模型分析人均食品消费时间序列数据和回归诊断（下）

软件体系结构 - 缓存技术（8）缓存雪崩

软件体系结构 - 缓存技术（7）Redis持久化方法

Python用KShape对时间序列进行聚类和肘方法确定最优聚类数k可视化

软件体系结构 - 缓存技术（6）淘汰策略

基于R语言股票市场收益的统计可视化分析

软件体系结构 - 数据分片（2）一致性哈希分片

相关课程

更多

【深度有趣】上海交大博士带你玩转GAN生成对抗网络

南瓜书《机器学习公式推导》

机器学习集成学习与模型融合

机器学习基础与回归算法

相关电子书

更多

深度学习论文实现：空间变换网络-第一部分

纯干货|机器学习中梯度下降法的分类及对比分析

纯干货 | 机器学习中梯度下降法的分类及对比分析

相关实验场景

更多

推荐系统入门之使用ALS算法实现打分预测

下一篇

部署LAMP环境（Alibaba Cloud Linux 3）