模型”遗忘”的启迪:Machine Unlearning(Forgetting),“主动遗忘”和“彻底遗忘”,长时记忆与短时记忆,多伦多大学向量学院,SISA

世界有时丑陋,我们需要遗忘。

但“遗忘”往往不是我们想的那样。 — David 9

我们很容易注意到,“记忆”“遗忘”是一件很复杂的事情,对一般人,那些痛苦失落的时光往往印象深刻,但曾经那些快感或幸福会转瞬即逝快速模糊。并且,“主动遗忘”“彻底遗忘”经常是不存在的事情,更不用说长时记忆与短时记忆究竟是什么?

事实上,记忆是从哪里来的我们都不完全了解,科学家曾经在软体动物身上做实验,把一部分A个体的RNA移植到B, 从而B拥有了A的行为记忆

试想对于人体,基因对记忆本身的影响更复杂难料。

回归主题,退一步,如果仅仅考虑“彻底遗忘”,并且是在模型层面的遗忘,或许问题会简单一点。

而且把遗忘聚焦在简单的“数据遗忘”,多伦多大学向量学院SISA方法提供了很好的参照。即,把某个训练数据从对神经网络影响中剔除。SISA方法展开是:Sharding(分片),Isolation(隔离), Slicing(切割),Aggregation(聚合),大致架构如下:

来自:https://arxiv.org/abs/1912.03817

首先,分片,把总的训练数据集D切分成D1,D2,…,Ds等小的数据集,

其次,隔离,把D1,D2,…,Ds分别用M1, M2…Ms等不同神经网络隔离训练, 继续阅读模型”遗忘”的启迪:Machine Unlearning(Forgetting),“主动遗忘”和“彻底遗忘”,长时记忆与短时记忆,多伦多大学向量学院,SISA

更高级的认知是“感知”问题吗?意识先验(Consciousness Prior),正演模型(forward model), 对比学习(Contrastive Learning), “系统2”的认知问题, AAAI2020主题演讲精要(二)

人类大脑可以在“现实”和“想象”之间自由切换,这种控制力一部分可能是“感知”驱动的,但是,另一部分是什么? — David 9

显然未来几年的趋势是,神经网络拥护者(Hinton等人)不再满足于模拟“低级”感知了,当下有一堆类似“因果推理”“长期计划”“抽象想象”“知识提炼和探索”等更高级的认知问题需要模拟!这种认知问题科学家们叫:“系统2″的认知(System 2 Processing 。

来自:https://www.youtube.com/watch?v=EeqwFjqFvJA&t=3745s

与视觉皮层的“快速直觉”认知不同(如CNN),System 2的认知更“慢”,更“高层”,但是,如何达到这种认知,没有人明确地知道。当然Hinton等人把他们的赌注下在“人工感知”上,即,只要原始的感知一层层不断往上堆,机器也能感受到“因果推理”,“长期计划”等的合理性,进而采取行动。而另一些认知科学家不这么认为,毕竟,没有理论依据也很难让人相信,更高级的认知是从“一大片混沌”中诞生的。

这也就是为什么Yoshua Bengio和Gary Marcus的AI辩论也不会有什么实质性进展。Yoshua Bengio等神经网络拥护者更关心怎么把可以工作的智能系统建成,而Gary Marcus更关心人类认知的理论探讨

David认为“感知”一定重要(人是感知丰富的动物),但Hinton等人似乎遗漏了什么,我们稍后探讨。

先回到主题,接着上一篇,这次AAAI2020主题演讲上另两位(Yann Le Cunn和Yoshua Bengio)也带来了他们对更高级“感知”的假设和实现细节。

当然,他们都在试图解决System 2的更高级认知问题,Yann Le Cunn提了3个重要方向,

1. 自监督学习(self-supervised learning),这个David 在以前较详细讨论过,不赘述了

2. 对比学习(Contrastive Learning)隐变量基于能量模型(latent variable energy-based models):

来自:https://www.youtube.com/watch?v=UX8OubxsY8w&t=5906s

对比学习的底层的目标和胶囊网络相似,即人类有一种天性是:我们在预测和行动前,早就在大脑中存了类似“缓存”的东西(心理期望),拿着

...阅读更多...加入David9的星球群阅读所有文章:

加入David9的星球群,获得通行密码 , 阅读全文

为什么Hinton说CNN是“垃圾”?胶囊神经网络的未来:堆叠胶囊自编码器(Stacked Capsule Autoencoders),AAAI2020主题演讲精要(一)

“人工感知”还将继续,但是人的“灵性” 绝非梯度学习和一堆权重这么简单— David 9

David最近一直在思考,Geoff Hinton等人热衷的“人工感知”最后会以什么样的方式让人们失去兴趣?优化方法(梯度学习、反向传播)和硬件技术(量子计算、边缘计算)的革新都不会直接影响其发展。 但一种可能是,那些感知难以触及的“信息处理”过程。

如小时候的你能感知到一个大家伙的存在(但无法表达),这时妈妈告诉你这是“飞机”:

这时你的大脑做的绝不仅仅是感知了,也不仅仅在这个“大家伙”打上“飞机”标签,它要处理的信息甚至超过我们的想象:它要知道究竟什么是“飞机”?“飞机”为什么会动?等等。。它还要感受母爱,这些感知和非感知的交错信息处理问题,已经超出了目前深度感知模型的范畴。

言归正转,Hinton在这次AAAI2020主题演讲上带来了最新的胶囊网络框架,并且否定了之前的所有的胶囊网络方法。他把这个框架叫:Stacked Capsule Autoencoders(堆叠胶囊自编码器)

首先,他全面地阐述了为什么现在的CNN模型都是“垃圾”

1.  CNN只对不同视觉角度的物体是什么样有概念,一旦物体旋转一下(或拉伸一下等常规操作),CNN就傻眼了:

来自:https://www.youtube.com/watch?v=UX8OubxsY8w&t=218s

CNN太关注不变性(Invariance)信息了,而忽略了等价性(Equivariance)信息,一个物体,即使视觉角度变了,大小变了,或被拉伸了(不是钢体),它还是它!四个轮子的是汽车,两个轮子的是单车,橡皮泥被捏成任何形状,它还是橡皮泥:

来自:https://www.youtube.com/watch?v=UX8OubxsY8w&t=218s

2.  CNN处理图像方法太怪异CNN是根据“像素上下文”去判定一个物体的,即,确定一辆汽车,它的判断方法是,这个物体的2D纹理是不是和训练集中汽车的2D纹理相似,甚至这辆汽车是不是四个轮子也不重要:

来自:https://www.youtube.com/watch?v=UX8OubxsY8w&t=218s

这就导致CNN和人类感知的方式差别太大,同样的图片加一些噪声可以作为攻击CNN的对抗样本:

3. CNN没有人类直觉中的“巧合对比”概念。我们的眼睛试图寻找一个物体时,

...阅读更多...加入David9的星球群阅读所有文章:

加入David9的星球群,获得通行密码 , 阅读全文