备案控制台

开发者社区

开发者社区量子位文章正文

ECCV 2018丨YOLO遇上OpenPose，近200FPS的高帧数多人姿态检测

2018-09-11 5958

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

在高帧数下，如何实现人体姿态检测？

下面这条刷屏的twitter视频给出了答案。

60841ac9cf6f7c48691851a19aa007bbd141452e

这是今年ECCV上的一篇名为《Pose Proposal Networks》的论文，作者是日本柯尼卡美能达公司的関井大気（Taiki SEKII），结合了去年CVPR上的YOLO和CMU的OpenPose，创造出的新方法，能够实现高帧数视频中的多人姿态检测。

高帧数，无压力

944a99b14ed42531c7bd072f123c2a5a35312790

而其他方法，比如NIPS 2017 的AE（Associative embedding）、ICCV 2017的RMPE（Regional multi-person pose estimation）、CVPR 2017的PAF（Realtime multi-person 2D pose estimation using part affinity fields），都无法实现高帧数尤其是100以上帧数视频的姿态检测。

93ee913fe102f8f2c5044e6cc835f251fd0d56c2

在COCO数据集上也不虚，相比谷歌PersonLab能在更高帧数下运行。

635b1a9445bf94b4af06fe5c3850448084411ceb

来看下具体数据，在头、肩、肘部位和整体上半身识别中超过了其他方法，整体得分也不虚。

神奇“体位”大冒险

另外，常规的姿态检测十分容易出错的“体位”中，该方法也可以规避。

比如从天上跳伞下来这种奇怪的姿势：

93acd5e4962d164e89901de5bb44eec2552f27f3

人数过多的拥挤场景：

db3c1396959c754bcef7d6dc3d3fc770e374ebe9

还有，两个人重叠的图像。

6cd55a4b8542b2869e48975ed47b0242d517261d

注意，右侧站立的女子和她前面在瑜伽垫上的人，完完全全分开了，不会闹出下面这种胳膊腿儿搞错的笑话。

151ea0a8fe07101a036217bc7f9273c49c57df16

原理

bffe407571dc0c7ff873c0d9543e45a4aa53ae66

这是基于ResNet-18的PPN对多人姿势检测的过程：

a) 输入图像；
b) 从输入图像中检测部分边界框；
c) 检测出肢体；
d) 区分图中每个人。

9643b8b9afa4da0e065b31bce4d0d3accaac09c8

这篇论文的方法是先将图片分割为较小的网格，使用较小的网络对每一幅网格图片进行单次物体检测范例，之后通过区域提议（region proposal）框架将姿态检测重定义为目标检测问题。

之后，使用单次CNN直接检测肢体，通过新颖的概率贪婪解析步骤，生成姿势提议。

区域提案部分被定义为边界框检测（Bounding Box Detections），大小和被检测人身材成比例，并且可以仅使用公共关键点注释进行监督。

整个架构由单个完全CNN构成，具有相对较低分辨率的特征图，并使用专为姿势检测性能设计的损耗函数直接进行端到端优化，此架构称为姿态提议网络（Pose Proposal Network，PPN）。PPN借鉴了YOLO的优点。

原文发布时间为：2018-09-9

本文作者：凹非寺

本文来自云栖社区合作伙伴“量子位”，了解相关信息可以关注“量子位”。

文章标签：

计算机视觉

机器学习/深度学习

技术小能手

目录

相关文章

cdzfr5ewdwyaw

|

2月前

|

机器学习/深度学习监控 PyTorch

YOLOv7+姿态估计Pose+tensort部署加速

YOLOv7+姿态估计Pose+tensort部署加速

cdzfr5ewdwyaw

41 0 0

cdzfr5ewdwyaw

|

2月前

|

算法计算机视觉

yolov5 deepsort-船舶目标检测+目标跟踪+单目测距+速度测量（代码+教程）

yolov5 deepsort-船舶目标检测+目标跟踪+单目测距+速度测量（代码+教程）

cdzfr5ewdwyaw

59 0 0

游客iigf2m33ba53k

|

机器学习/深度学习传感器人工智能

首篇！最全的全景分割综述（RGB图像/医学图像/LiDAR）（下）

本文对现有的全景分割方法进行了第一次全面的综述。因此，基于所采用的算法、应用场景和主要目标的性质，对现有全景技术进行了定义良好的分类。此外，还讨论了全景分割在通过伪标记标注新数据集中的应用。接下来，进行消融研究，以从不同角度了解全景方法。此外，还讨论了适用于全景分割的评估指标，并对现有解决方案的性能进行了比较，以了解最新技术并确定其局限性和优势。最后，阐述了当前主题技术面临的挑战以及近期吸引大量关注的未来趋势，这可以作为未来研究的起点。

游客iigf2m33ba53k

557 0 0

首篇！最全的全景分割综述（RGB图像/医学图像/LiDAR）（下）

星辰大海AI领航

|

3月前

|

机器学习/深度学习 Shell 计算机视觉

【论文精读】CVPR2021 - ReDet：一种用于航空目标检测的旋转等变检测器

【论文精读】CVPR2021 - ReDet：一种用于航空目标检测的旋转等变检测器

星辰大海AI领航

119 0 0

热烈的马

|

4月前

|

算法计算机视觉

OpenCV中使用加速鲁棒特征检测SURF与图像降噪讲解与实战（附源码）

OpenCV中使用加速鲁棒特征检测SURF与图像降噪讲解与实战（附源码）

热烈的马

32 0 0

一颗小树x

|

5月前

|

机器学习/深度学习自动驾驶定位技术

【论文解读】SMOKE 单目相机 3D目标检测（CVPR2020）

SMOKE是一种用于自动驾驶的实时单目 3D 物体检测器。为什么会注意这边文章呢？是因为这两天发布的百度Apollo 7.0 的摄像头障碍物感知，也是基于这个模型改进的；于是令我产生了一些兴趣。

一颗小树x

156 0 0

5i77ajz5u7ji6

|

11月前

|

机器学习/深度学习自动驾驶大数据

3D检测涨点Trick | 2D检测居然可以教BEV进行3D目标检测

3D检测涨点Trick | 2D检测居然可以教BEV进行3D目标检测

5i77ajz5u7ji6

421 0 0

5i77ajz5u7ji6

|

11月前

|

存储机器学习/深度学习人工智能

YOLOv5永不缺席 | YOLO-Pose带来实时性高且易部署的姿态估计模型！！！

YOLOv5永不缺席 | YOLO-Pose带来实时性高且易部署的姿态估计模型！！！

5i77ajz5u7ji6

223 0 0

CVHub

|

11月前

|

机器学习/深度学习编解码算法

CVPR 2023 | IGEV-Stereo & IGEV-MVS：双目立体匹配网络新SOTA!

CVPR 2023 | IGEV-Stereo & IGEV-MVS：双目立体匹配网络新SOTA!

CVHub

493 0 0

CVHub

|

11月前

|

传感器编解码测试技术

CVPR'2023 | Nerf-Stereo: 利用NeRF来训练双目立体匹配网络的新范式！

CVPR'2023 | Nerf-Stereo: 利用NeRF来训练双目立体匹配网络的新范式！

CVHub

418 0 0

量子位

热门文章

最新文章

理解事务的4种隔离级别

疑犯追踪第一季/全集Person Of Interest迅雷下载

简单实用的数据建模工具PDManer

详细讲解！Canal+Kafka实现MySQL与Redis数据同步！

71.7. Script for automatic startup on boot

关于Oracle客户端显示乱码问题

PHPWAMP站点管理的“域名模式”和“端口模式”详解、均支持自定义

学校里学不到的东西(一)

Python 3 教程一:入门

Python的装饰器

R语言用潜类别混合效应模型(Latent Class Mixed Model ,LCMM)分析老年痴呆年龄数据

数据分享|R语言用logistic逻辑回归和AFRIMA、ARIMA时间序列模型预测世界人口

【视频】马尔可夫链蒙特卡罗方法MCMC原理与R语言实现|数据分享（下）

【视频】马尔可夫链蒙特卡罗方法MCMC原理与R语言实现|数据分享（上）

数据分享|数据探索电商平台用户行为流失可视化分析

电商平台数据可视化分析网红零食销量

R语言线性回归模型拟合诊断异常值分析家庭燃气消耗量和卡路里实例带自测题

数据分享|R语言GLM广义线性模型：逻辑回归、泊松回归拟合小鼠临床试验数据（剂量和反应）示例和自测题

数据分享|R语言逻辑回归、线性判别分析LDA、GAM、MARS、KNN、QDA、决策树、随机森林、SVM分类葡萄酒交叉验证ROC（下）

相关电子书

更多

深度学习论文实现：空间变换网络-第一部分

基于视觉推理的视频理解

五分钟微调“漫画风” Stable Diffusion

相关实验场景

更多

AIGC Stable Diffusion文生图Lora模型微调实现虚拟上装

下一篇

部署LAMP环境（Alibaba Cloud Linux 3）