AOGNet:基于深度 AND-OR 语法网络的目标识别方法 | PaperDaily #28

简介:

本文贡献主要有两点:

  1. 把语法模型和深度神经网络模型结合起来,设计的模型同时兼顾特征的 exploration and exploitation(探索和利用),并在网络的深度和宽度上保持平衡;
  2. 设计的网络结构,在分类任务和目标检测任务上,都比基于残差结构的方法要好。

如果你对本文工作感兴趣,点击底部的阅读原文即可查看原论文。

关于作者:杜敏,华中科技大学硕士生,研究方向为模式识别与智能系统。

■ 论文 | AOGNets: Deep AND-OR Grammar Networks for Visual Recognition

■ 链接 | https://www.paperweekly.site/papers/1315

■ 作者 | duinodu

论文亮点

网络工程问题,属于深度学习中比较基础的问题。网络工程的最大难点在于,由于缺乏对深度神经网络的理论理解,无法根据某种理论来设计网络结构,实际中更多的不断地尝试,根据实验反馈来确定某种结构是不是好。

而使用像增强学习、进化算法等自动学习网络结构的方法,搜索空间巨大。有两个子空间,一个是结构连接子空间,一个是运算符子空间,搜索空间是这两个空间的乘积,自动学习网络结构的算法需要昂贵的计算资源。

本文的解决办法是,把语法模型(grammer model)放到神经网络的设计中来,在分类和目标检测任务中,均取得比基于残差结构的模型更好的效果

模型介绍

整个模型概览图如下:

699b0c7bf0093fab05bfefb360f9d576731c4efd

中间有 4 个 AOG 构建块,每个 AOG 块的结构如下图所示:

df7fa1194c3f73daf98517871474078de23f685b

AOG 的全称叫 AND-OR graph,是一种语法模型(grammer model)。在人工智能的发展历程中,大体有两种解决办法:一种是自底向上,即目前非常流形的深度神经网络方法,另一种方法是自顶向下,语法模型可以认为是一种自顶向下的方法。

所谓的语法模型,即规定 3-4 条规则,构建 graph,graph 可以认为是一种特征表达的范式,它没有具体规定特征表达是什么形式,但是如果遵循这种规则构建特征表达,却能达到比较好的效果。本文使用如下三条语法规则:

65f7206ec84a75af2420e43570e1ba948ce0e49d

AOGNet 的构建流程如下:

973685f77f253feff8b674867ef726fa4b1f8065

可以配合视频[1],看这个流程图。

网络工程分为两个部分:设计连接结构和设计运算操作符(structure space 和 operator space)。

整个的 CNN 发展历程,都可以归结到这两点。论文的相关工作部分,很好地对 CNN 网络结构的演变,梳理了一番,有如下网络结构:

  • LeNet-5(20 年前)
  • AlexNet(8 层,在 operator space 提出两种新的操作符:ReLU 和 Dropout))
  • VGG Net(19 层,多个连续的重复的小卷积核,且卷积的 stride 很小)
  • network-in-network(用 1x1 的卷积,在层层之间,增大或者较少特征的维数)
  • GoogleNet(inception, bottleneck)
  • Highway network(skip connection)
  • Residual Network(Residual connection)
  • Fractal Net(another short path without residual)
  • DenseNet(concatenation scheme)
  • Dual Path Network SE-Net(channel-wise encoding)
  • Hourglass(subsampling & upsampling)

使用三条语法规则构建了网络连接方式,网络中每个节点的运算操作符采用 Bottleneck + Conv_BN_ReLU 的方式。

11b182e67719de23765e83bcaf27eaee004ee6bc

其实可以不同的节点,设计不同的运算符,作者这里都统一成一样的。处理上面统一的运算符,各个不同的节点还要分别做下面的运算。

827b1f68a825c49bfe8ec2260593354529f6faa0

实验结果


在 CIFAR 和 ImageNet-1k 上做了分类的实验,在 VOC0712 做了目标检测的实验(使用 fasterRCNN 框架)。

95732a48f427005f1b6aea53a142fede0e16c6da

3784a2cfee9d723b398c62bf0c9f3de4b46b62d6

715c15a848996a5df89c9275747575ac6fb6dfd3

文章评价

本文作者团队是朱松纯教授[2]组的,他们组一直在做语法模型。之前读过他写的《人工智能的现状、任务、架构和统一》[3],看到这篇文章以及了解了语法模型,才算是了解朱松纯组到底要做什么样的事情。

语法模型和深度神经网络,是可以相互融合的方法,前者基于规则,后者基于大量数据拟合。本文只是语法模型的冰山一角,另一篇论文 Interpretable R-CNN [4],也用到了语法模型,和 RFCN 方法结合,获得一种目标的 part configuration。

这种语法模型目前还在探索之中,尤其是和深度神经网络结合的工作,以及和 GAN、RL 等不同范式的深度学习方法结合,应该会有有趣的工作。


原文发布时间为:2017-12-19

本文作者:杜敏

本文来自云栖社区合作伙伴“PaperWeekly”,了解相关信息可以关注“PaperWeekly”微信公众号

相关文章
|
4月前
|
机器学习/深度学习 数据采集 分布式计算
社交网络分析4(下):社交网络链路预测分析、LightGBM框架、LLSLP方法(LightGBM 堆叠链路预测)、堆叠泛化 、社交网络链路预测分析的挑战
社交网络分析4(下):社交网络链路预测分析、LightGBM框架、LLSLP方法(LightGBM 堆叠链路预测)、堆叠泛化 、社交网络链路预测分析的挑战
218 0
|
4月前
|
机器学习/深度学习 人工智能 算法
社交网络分析4(上):社交网络链路预测分析、Logistic回归模型、LLSLP方法(LightGBM 堆叠链路预测)、正则化方法、多重共线性
社交网络分析4(上):社交网络链路预测分析、Logistic回归模型、LLSLP方法(LightGBM 堆叠链路预测)、正则化方法、多重共线性
302 0
社交网络分析4(上):社交网络链路预测分析、Logistic回归模型、LLSLP方法(LightGBM 堆叠链路预测)、正则化方法、多重共线性
|
4月前
|
机器学习/深度学习 自然语言处理 算法
社交网络分析2(上):社交网络情感分析的方法、挑战与前沿技术
社交网络分析2(上):社交网络情感分析的方法、挑战与前沿技术
416 0
社交网络分析2(上):社交网络情感分析的方法、挑战与前沿技术
|
1月前
|
机器学习/深度学习 存储 供应链
【软件设计师备考 专题 】运算基本方法:预测与决策、线性规划、网络图、模拟
【软件设计师备考 专题 】运算基本方法:预测与决策、线性规划、网络图、模拟
57 0
|
1月前
|
机器学习/深度学习 存储 算法
6 种 卷积神经网络压缩方法
6 种 卷积神经网络压缩方法
29 0
|
2月前
|
弹性计算 安全 关系型数据库
带你读《从基础到应用云上安全航行指南》——来上课!一文掌握守住ECS网络安全的最佳方法(1)
带你读《从基础到应用云上安全航行指南》——来上课!一文掌握守住ECS网络安全的最佳方法(1)
156 0
|
2月前
|
弹性计算 运维 安全
带你读《从基础到应用云上安全航行指南》——来上课!一文掌握守住ECS网络安全的最佳方法(2)
带你读《从基础到应用云上安全航行指南》——来上课!一文掌握守住ECS网络安全的最佳方法(2)
37 2
|
2月前
|
云安全 弹性计算 监控
带你读《从基础到应用云上安全航行指南》——来上课!一文掌握守住ECS网络安全的最佳方法(3)
带你读《从基础到应用云上安全航行指南》——来上课!一文掌握守住ECS网络安全的最佳方法(3)
46 0
|
3月前
|
供应链 安全 网络协议
网络安全的行业黑话 ——攻击篇 之攻击方法(2)
网络安全的行业黑话 ——攻击篇 之攻击方法(2)
56 0
|
3月前
|
SQL 安全 网络安全
网络安全的行业黑话 ——攻击篇 之攻击方法
网络安全的行业黑话 ——攻击篇 之攻击方法
66 0