深度学习笔记之使用Faster-Rcnn进行目标检测 (原理篇)

简介:

Object Detection发展介绍

  Faster rcnn是用来解决计算机视觉(CV)领域中Object Detection的问题的。经典的解决方案是使用: SS(selective search)产生proposal,之后使用像SVM之类的classifier进行分类,得到所有可能的目标. 
使用SS的一个重要的弊端就是:特别耗时,而且使用像传统的SVM之类的浅层分类器,效果不佳。 
鉴于神经网络(NN)的强大的feature extraction特征,可以将目标检测的任务放到NN上面来做,使用这一思想的目标检测的代表是: 
RCNN Fast-RCNNFaster-RCNN YOLO等 

  

  简单点说就是:

  • RCNN 解决的是,“为什么不用CNN做detection呢?”
  • Fast-RCNN 解决的是,“为什么不一起输出bounding box和label呢?”
  • Faster-RCNN 解决的是,“为什么还要用selective search呢?”

 

 

 

 

Faster-Rcnn原理简介

  鉴于之上的分析,想要在时间上有所突破就要在如何更快的产生proposal上做工夫。 
Faster使用NN来做region proposal,在Fast-rcnn的基础上使用共享卷积层的方式。作者提出,卷积后的特征图同样也是可以用来生成 region proposals 的。通过增加两个卷积层来实现Region Proposal Networks (RPNs) , 一个用来将每个特征图 的位置编码成一个向量,另一个则是对每一个位置输出一个 objectness score 和 regressed bounds for k region proposals.

            Faster model

 

 

 

 

RPN

  RPN的作用有以下几个:

(1) 输出proposal的位置(坐标)和score 
(2) 将不同scale和ratio的proposal映射为低维的feature vector 
(3) 输出是否是前景的classification和进行位置的regression

 

 

  这里论文提到了一个叫做Anchor的概念,作者给出的定义是:

The k proposals are parameterized relative to k reference boxes, which we call anchors

  

  我的理解是:不同ratio和scale的box集合就是anchor, 对最后一层卷积生成的feature map将其分为n*n的区域,进行不同ratio和scale的采样.

                RPN

 

 

 

 

RPN的cls和reg

  RPN输出对于某个proposal,其是属于前景或者背景的概率(0 or 1),具体的标准论文里给出的是:

  • 和所有的ground-truth的IoU(Intersection-over-union)小于0.3视为negative(背景)
  • 和任意的ground-truth的IoU大于0.7视为positive(前景)
  • 不属于以上两种情况的proposal直接丢掉,不进行训练使用

 

 

  对于regression,作用是进行proposal位置的修正:

  • 学习k个bounding-box-regressors
  • 每个regresso负责一个scale和ratio的proposal,k个regressor之间不共享权值

 

 

RPN Training

  两种训练方式: joint trainingalternating training 
两种训练的方式都是在预先训练好的model上进行fine-tunning,比如使用VGG16、ZF等,对于新加的layer初始化使用random initiation,使用SGD和BP在caffe上进行训练

 

 

alternating training

  首先训练RPN, 之后使用RPN产生的proposal来训练Fast-RCNN, 使用被Fast-RCNN tuned的网络初始化RPN,如此交替进行

 

joint training

  首先产生region proposal,之后直接使用产生的proposal训练Faster-RCNN,对于BP过程,共享的层需要combine RPN loss和Faster-RCNN los

 

 

Result

  结果自然不用说,肯定是state-of-art,大家自己感受下吧

result



本文转自大数据躺过的坑博客园博客,原文链接:http://www.cnblogs.com/zlslch/p/6973201.html,如需转载请自行联系原作者

相关文章
|
9天前
|
机器学习/深度学习 数据采集 自然语言处理
OneFlow深度学习框原理、用法、案例和注意事项
OneFlow深度学习框原理、用法、案例和注意事项
13 0
|
29天前
|
机器学习/深度学习 算法 计算机视觉
基于深度学习的停车位关键点检测系统(代码+原理)
基于深度学习的停车位关键点检测系统(代码+原理)
209 0
|
29天前
|
机器学习/深度学习 算法 数据可视化
计算机视觉+深度学习+机器学习+opencv+目标检测跟踪+一站式学习(代码+视频+PPT)-2
计算机视觉+深度学习+机器学习+opencv+目标检测跟踪+一站式学习(代码+视频+PPT)
114 0
|
29天前
|
机器学习/深度学习 Ubuntu Linux
计算机视觉+深度学习+机器学习+opencv+目标检测跟踪+一站式学习(代码+视频+PPT)-1
计算机视觉+深度学习+机器学习+opencv+目标检测跟踪+一站式学习(代码+视频+PPT)
79 1
|
1天前
|
机器学习/深度学习 算法 TensorFlow
深度学习基础:神经网络原理与构建
**摘要:** 本文介绍了深度学习中的神经网络基础,包括神经元模型、前向传播和反向传播。通过TensorFlow的Keras API,展示了如何构建并训练一个简单的神经网络,以对鸢尾花数据集进行分类。从数据预处理到模型构建、训练和评估,文章详细阐述了深度学习的基本流程,为读者提供了一个深度学习入门的起点。虽然深度学习领域广阔,涉及更多复杂技术和网络结构,但本文为后续学习奠定了基础。
21 5
|
13天前
|
机器学习/深度学习 算法 数据挖掘
深度学习面试问题目录 | 深度学习目标检测、语义分割、分类上百种面试问答技巧
这篇文章汇总了深度学习面试,特别是目标检测领域的常见问题,提供了一个详细的目录大纲,便于读者直接跳转至答案。通过理解和解答这些问题,求职者能展示其在深度学习专业的知识、解决问题的能力及对应用的理解,从而提高面试成功率和竞争力。包含多个专题,如损失函数、Python解释器、经典网络、YOLO系列、激活函数等。
|
15天前
|
机器学习/深度学习 传感器 自动驾驶
基于深度学习的图像识别技术在自动驾驶系统中的应用深入理解操作系统内存管理:原理与实践
【5月更文挑战第28天】 随着人工智能技术的飞速发展,图像识别作为其重要分支之一,在多个领域展现出了广泛的应用潜力。尤其是在自动驾驶系统中,基于深度学习的图像识别技术已成为实现车辆环境感知和决策的关键。本文将深入探讨深度学习算法在自动驾驶图像识别中的作用,分析其面临的挑战以及未来的发展趋势,并以此为基础,展望该技术对自动驾驶安全性和效率的影响。
|
15天前
|
机器学习/深度学习 算法 大数据
基于深度学习的图像识别技术:原理与实践
基于深度学习的图像识别技术:原理与实践
33 4
|
23天前
|
机器学习/深度学习 算法 固态存储
深度学习算法工程师面试问题总结| 深度学习目标检测岗位面试总结
本文给大家带来的百面算法工程师是深度学习目标检测岗位面试总结,文章内总结了常见的提问问题,旨在为广大学子模拟出更贴合实际的面试问答场景。在这篇文章中,我们还将介绍一些常见的深度学习目标检测面试问题,并提供参考的回答及其理论基础,以帮助求职者更好地准备面试。通过对这些问题的理解和回答,求职者可以展现出自己的深度学习目标检测领域的专业知识、解决问题的能力以及对实际应用场景的理解。同时,这也是为了帮助求职者更好地应对深度学习目标检测岗位的面试挑战,提升面试的成功率和竞争力。
|
29天前
|
机器学习/深度学习 算法 固态存储
深度学习500问——Chapter08:目标检测(8)
深度学习500问——Chapter08:目标检测(8)
26 0

热门文章

最新文章