CNN Archives | David 9的博客 --- 不怕"过拟合"

为什么Hinton说CNN是“垃圾”？胶囊神经网络的未来：堆叠胶囊自编码器(Stacked Capsule Autoencoders)，AAAI2020主题演讲精要(一)

“人工感知”还将继续，但是人的“灵性” 绝非梯度学习和一堆权重这么简单— David 9

David最近一直在思考，Geoff Hinton等人热衷的“人工感知”最后会以什么样的方式让人们失去兴趣？优化方法(梯度学习、反向传播)和硬件技术(量子计算、边缘计算)的革新都不会直接影响其发展。但一种可能是，那些感知难以触及的“信息处理”过程。

如小时候的你能感知到一个大家伙的存在(但无法表达)，这时妈妈告诉你这是“飞机”：

这时你的大脑做的绝不仅仅是感知了，也不仅仅在这个“大家伙”打上“飞机”标签，它要处理的信息甚至超过我们的想象：它要知道究竟什么是“飞机”？“飞机”为什么会动？等等。。它还要感受母爱，这些感知和非感知的交错信息处理问题，已经超出了目前深度感知模型的范畴。

言归正转，Hinton在这次AAAI2020主题演讲上带来了最新的胶囊网络框架，并且否定了之前的所有的胶囊网络方法。他把这个框架叫：Stacked Capsule Autoencoders（堆叠胶囊自编码器）。

首先，他全面地阐述了为什么现在的CNN模型都是“垃圾”：

1. CNN只对不同视觉角度的物体是什么样有概念，一旦物体旋转一下(或拉伸一下等常规操作)，CNN就傻眼了：

来自：https://www.youtube.com/watch?v=UX8OubxsY8w&t=218s

CNN太关注不变性(Invariance)信息了，而忽略了等价性（Equivariance）信息，一个物体，即使视觉角度变了，大小变了，或被拉伸了(不是钢体)，它还是它！四个轮子的是汽车，两个轮子的是单车，橡皮泥被捏成任何形状，它还是橡皮泥：

2. CNN处理图像方法太怪异。CNN是根据“像素上下文”去判定一个物体的，即，确定一辆汽车，它的判断方法是，这个物体的2D纹理是不是和训练集中汽车的2D纹理相似，甚至这辆汽车是不是四个轮子也不重要：

这就导致CNN和人类感知的方式差别太大，同样的图片加一些噪声可以作为攻击CNN的对抗样本:

3. CNN没有人类直觉中的“巧合对比”概念。我们的眼睛试图寻找一个物体时，

...阅读更多...加入David9的星球群阅读所有文章:

加入David9的星球群，获得通行密码 , 阅读全文

发布于 2 3 月, 202014 4 月, 2020分类 AAAI、CNN、前沿、学术于为什么Hinton说CNN是“垃圾”？胶囊神经网络的未来：堆叠胶囊自编码器(Stacked Capsule Autoencoders)，AAAI2020主题演讲精要(一)留下评论

AI+3D重建#2：端到端的360全景室内3D重建角点模型，AR、装修设计、室内导航

人类的出发点是因果，模型的出发点是数据 — David 9

没有上层逻辑（或reasoning）和自恰的抽象归纳，在这一点上深度学习只能沦为一般的“工具”。举例说这个360全景室内图的3D重建应用：

来自：https://arxiv.org/pdf/1903.08094v2.pdf

如果要设计一个端到端的模型，应该把神经网络实际输出抽象成什么？也许只有像作者等领域专家才会想到分成两个图（角点图和边缘图）去建立室内3D场景:

来自：https://arxiv.org/pdf/1903.08094v2.pdf

因为对于室内场景，把角点和边缘线准确找到，再假设房顶和地面平行，就可以预测出比较好的3D模型盒子（box）了：

来自：https://arxiv.org/pdf/1903.08094v2.pdf

因此细想一下，AI专家系统的复兴是不是未来一个可以期待的方向？况且，David认为，论文中“reladted work”部分蕴含了大量人类探知知识的“因果”。
继续阅读AI+3D重建#2：端到端的360全景室内3D重建角点模型，AR、装修设计、室内导航

发布于 13 4 月, 20198 5 月, 2019分类 3D重建、CNN、TensorFlow于AI+3D重建#2：端到端的360全景室内3D重建角点模型，AR、装修设计、室内导航留下评论

聊聊目标检测中的多尺度检测（Multi-Scale），从YOLO，ssd到FPN，SNIPER，SSD填坑贴和极大极小目标识别

狙击手在放大倍焦前已经经历了大量的小目标训练，这样看似乎是RPN做的好 — David 9

之前在讲SSD时我们聊过SSD的目标检测是如何提高多尺度（较大或较小）物体检测率的。我们来回顾一下，首先，较大的卷积窗口可以卷积后看到较大的物体, 反之只能看到较小的图片. 想象用1*1的最小卷积窗口, 最后卷积的图片粒度和输入图片粒度一模一样. 但是如果用图片长*宽的卷积窗口, 只能编码出一个大粒度的输出特征.

对于yolov1，每层使用同样大小的卷积窗口, 识别超大物体或者超小物体就变得无能为力（最后一层的输出特征图是固定7*7）:

YOLO架构示意图

而SSD就更进一步，最后一层的检测是由之前多个尺度（Multi-Scale）的特征图共同生成的：

SSD架构示意图

这样SSD在计算复杂度允许的情况下，在多尺度物体的检测上有所提高。但是SSD也有明显缺陷，其最后几层的所谓“多尺度”是有限的（如上图特征图尺寸越小，可以识别的物体越大）。对于极小的目标识别，SSD就显得无能为力了，继续阅读聊聊目标检测中的多尺度检测（Multi-Scale），从YOLO，ssd到FPN，SNIPER，SSD填坑贴和极大极小目标识别

发布于 5 11 月, 20188 10 月, 2019分类 CNN、业界、前沿、机器视觉于聊聊目标检测中的多尺度检测（Multi-Scale），从YOLO，ssd到FPN，SNIPER，SSD填坑贴和极大极小目标识别留下评论

文章导航

页 1 页 2 … 页 5 下一页

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30