为什么Hinton说CNN是“垃圾”?胶囊神经网络的未来:堆叠胶囊自编码器(Stacked Capsule Autoencoders),AAAI2020主题演讲精要(一)

“人工感知”还将继续,但是人的“灵性” 绝非梯度学习和一堆权重这么简单— David 9

David最近一直在思考,Geoff Hinton等人热衷的“人工感知”最后会以什么样的方式让人们失去兴趣?优化方法(梯度学习、反向传播)和硬件技术(量子计算、边缘计算)的革新都不会直接影响其发展。 但一种可能是,那些感知难以触及的“信息处理”过程。

如小时候的你能感知到一个大家伙的存在(但无法表达),这时妈妈告诉你这是“飞机”:

这时你的大脑做的绝不仅仅是感知了,也不仅仅在这个“大家伙”打上“飞机”标签,它要处理的信息甚至超过我们的想象:它要知道究竟什么是“飞机”?“飞机”为什么会动?等等。。它还要感受母爱,这些感知和非感知的交错信息处理问题,已经超出了目前深度感知模型的范畴。

言归正转,Hinton在这次AAAI2020主题演讲上带来了最新的胶囊网络框架,并且否定了之前的所有的胶囊网络方法。他把这个框架叫:Stacked Capsule Autoencoders(堆叠胶囊自编码器)

首先,他全面地阐述了为什么现在的CNN模型都是“垃圾”

1.  CNN只对不同视觉角度的物体是什么样有概念,一旦物体旋转一下(或拉伸一下等常规操作),CNN就傻眼了:

来自:https://www.youtube.com/watch?v=UX8OubxsY8w&t=218s

CNN太关注不变性(Invariance)信息了,而忽略了等价性(Equivariance)信息,一个物体,即使视觉角度变了,大小变了,或被拉伸了(不是钢体),它还是它!四个轮子的是汽车,两个轮子的是单车,橡皮泥被捏成任何形状,它还是橡皮泥:

来自:https://www.youtube.com/watch?v=UX8OubxsY8w&t=218s

2.  CNN处理图像方法太怪异CNN是根据“像素上下文”去判定一个物体的,即,确定一辆汽车,它的判断方法是,这个物体的2D纹理是不是和训练集中汽车的2D纹理相似,甚至这辆汽车是不是四个轮子也不重要:

来自:https://www.youtube.com/watch?v=UX8OubxsY8w&t=218s

这就导致CNN和人类感知的方式差别太大,同样的图片加一些噪声可以作为攻击CNN的对抗样本:

3. CNN没有人类直觉中的“巧合对比”概念。我们的眼睛试图寻找一个物体时,

...阅读更多...加入David9的星球群阅读所有文章:

加入David9的星球群,获得通行密码 , 阅读全文

AI+3D重建#2:端到端的360全景室内3D重建角点模型,AR、装修设计、室内导航

人类的出发点是因果,模型的出发点是数据 — David 9

没有上层逻辑(或reasoning)和自恰的抽象归纳,在这一点上深度学习只能沦为一般的“工具”。举例说这个360全景室内图的3D重建应用

来自:https://arxiv.org/pdf/1903.08094v2.pdf

如果要设计一个端到端的模型,应该把神经网络实际输出抽象成什么?也许只有像作者等领域专家才会想到分成两个图(角点图边缘图)去建立室内3D场景:

来自:https://arxiv.org/pdf/1903.08094v2.pdf

因为对于室内场景,把角点边缘线准确找到,再假设房顶和地面平行,就可以预测出比较好的3D模型盒子(box)了:

来自:https://arxiv.org/pdf/1903.08094v2.pdf

因此细想一下,AI专家系统的复兴是不是未来一个可以期待的方向?况且,David认为,论文中“reladted work”部分蕴含了大量人类探知知识的“因果”。

继续阅读AI+3D重建#2:端到端的360全景室内3D重建角点模型,AR、装修设计、室内导航

聊聊目标检测中的多尺度检测(Multi-Scale),从YOLO,ssd到FPN,SNIPER,SSD填坑贴和极大极小目标识别

狙击手在放大倍焦前已经经历了大量的小目标训练,这样看似乎是RPN做的好 — David 9

之前在讲SSD时我们聊过SSD的目标检测是如何提高多尺度(较大或较小)物体检测率的。我们来回顾一下,首先,较大的卷积窗口可以卷积后看到较大的物体, 反之只能看到较小的图片. 想象用1*1的最小卷积窗口, 最后卷积的图片粒度和输入图片粒度一模一样. 但是如果用图片长*宽 的卷积窗口, 只能编码出一个大粒度的输出特征.

对于yolov1,每层使用同样大小的卷积窗口, 识别超大物体或者超小物体就变得无能为力(最后一层的输出特征图是固定7*7):

YOLO架构示意图

SSD就更进一步,最后一层的检测是由之前多个尺度(Multi-Scale)的特征图共同生成的:

SSD架构示意图

这样SSD在计算复杂度允许的情况下,在多尺度物体的检测上有所提高。但是SSD也有明显缺陷,其最后几层的所谓“多尺度”是有限的(如上图特征图尺寸越小,可以识别的物体越大)。对于极小的目标识别,SSD就显得无能为力了继续阅读聊聊目标检测中的多尺度检测(Multi-Scale),从YOLO,ssd到FPN,SNIPER,SSD填坑贴和极大极小目标识别