PTAV：实时高精度目标追踪框架 | ICCV 2017论文解读-阿里云开发者社区

PTAV：实时高精度目标追踪框架 | ICCV 2017论文解读

2018-03-20 4960

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

论文动机

目标追踪是视频分析的基本任务，比目标识别更为复杂：目标追踪可以把每一帧看作单独的图片，再进行识别，但目标追踪不会这样做，因为没有考虑视频帧之间的冗余信息，效率低且慢。

目标追踪一直有两大阵营，CF 相关滤波和 CNN，当然也可以 CF+CNN 融合。

本文基于以下动机：

1. 物体运动时，大部分时间运动平缓，外观改变较慢。但是对于偶然发生的剧烈运动，需要复杂信息处理，需要单独验证。

2. CV 领域已经普及多线程计算，尤其 SLAM（Simultaneous localization and mapping、同步定位于地图构建）领域。PTAM 算法的一个关键观点是每一帧不是有必要构建地图。对于目标追踪而言，每一帧图片也不需要单独的验证。

3. tracking performance 和 efficiency 之间需要达到一种平衡。

论文将 tracking 过程分解为两个并行但是相互协作的部分：一个用于快速的跟踪（fast tracking），另一个用于准确的验证（accurate verification）。

其实作者之前发布的论文版本 [1] 已被 ICCV 2017 录用，此版本在原文基础上做了进一步的修订。本文所有讨论以 2018 年 1 月在 arXiv 上发布的版本为准。

该版本在原文基础上做了以下改进：

1. 使用更具有鲁棒性的跟踪器（Staple）提升性能。

2. 动态目标模板池用于自适应验证，放置目标外观的变化。

3. PTAV 的 V 和 T 进行了多方面验证，比如 T 使用 VGGNet 和 AlexNet ，V 使用 KCF、fDSST 和 Staple。

4. 使用更多实时性算法和基准，进行更彻底实验验证和分析。

论文模型

PTAV 算法架构包括三部分：Base Tracker T，Base Verifier V，以及它们之间的协调环节。

对于 T，论文选择的是 Staple 算法 [2]。验证环节 V 则选择采用 Siamese network 验证目标之间的相似性。对于协调环节，T 在合适的频率发送结果给 V，保证足够的时间验证。

为了改善 PTAV 的精度和速率，论文使用 k 均值聚类用于保持动态目标模板池用于自适应验证。

630022183b542c88ee8c70a1db3b03fa4203710a

实验

论文的实验数据详实，在主要数据集 OTB2015，TC128，UAV20L 和 VOT2016 上均和典型算法进行了对比。

从精度和实时性考虑各个模型，如图所示，OTB2015 数据集显示效果。

2742ceaa3e6bc4e0652bbae22df5f5c7c6a6fb61

总结

PTAV 的假设是大部分时间目标运动平滑，位置改变很慢。而较难的情况是运动的无规律性。论文提出的 verifying 时刻并不一定是运动改变的时刻，具有偶然性，所以对“打架斗殴”等运动剧烈的情况会失败。10 帧更新速率对 verifying 不是最好的选择。

对于同样视频序列处理的 video segmentation，可以同样考虑。因为视频的逐帧操作比较耗费时间，这种间隔性的验证可大量节约资源。但是，对于剧烈变化的活动，更新会滞后。是否存在自使用速率变化的方法，这样的坑可以继续填。

原文发布时间为：2018-03-20

本文作者：陈泰红

本文来自云栖社区合作伙伴“PaperWeekly”，了解相关信息可以关注“PaperWeekly”微信公众号

PTAV：实时高精度目标追踪框架 | ICCV 2017论文解读