贝叶斯神经网络(BNN)靠谱吗?BNN的基本思想, 它的未来在哪里?

一个“大”的未来,总是要有一个“大”的期望 —— David 9

如果你还不清楚贝叶斯理论中先验后验的关系,David做个直白的比喻:如果你是天文学家,那你需要选用望远镜观察,然后记录数据,最终做出预测。这个过程中,你选用的“望远镜”就是“先验”,而你“记录数据”的过程就是“后验”,两者共同决定你的预测质量:

伽利略使用望远镜,来自:https://www.biography.com/news/galileo-discoveries-theories-modern-physics-astronomy

所以在用贝叶斯推断时(或变分推断时),如果先验(望远镜)选不好,后验估计(观测者记录)再好也是徒劳。当然,让一个外行人记录观测也是不靠谱的(失败的后验估计)。

这样,如果我们用贝叶斯思想去审视神经网络,你会发现它的“先验”无处不在,包括:

网络架构 (宽的网络还是深的网络?用resnet那样跳层还是inception那样分组?) , 

网络组件(内部用卷积还是类似rnn的记忆单元?选用什么方式防止过拟合?BN?Dropout?),

loss函数 (loss函数包含了你评估模型的核心先验,它在训练时深刻地影响了模型的收敛方向),

这些都是人为预先设置的“先验”(无论你是否察觉)。

什么是神经网络的“后验”估计呢?广义地说,整个神经网络的训练过程就是“后验”估计的过程传统地,我们用SGD梯度下降逼近模型的最优解,它帮助我们在庞大的数据中寻求后验估计

那么重点来了,贝叶斯神经网络(BNN)和这种一般神经网络 继续阅读贝叶斯神经网络(BNN)靠谱吗?BNN的基本思想, 它的未来在哪里?

“去端到端”化和复杂loss:梯度隔离的分层神经网络模型Greedy InfoMax(GIM),深入了解自监督学习#2,InfoNCE loss及其对分层脉冲神经网络的启发

“端到端”学习是个“童话”,讲给懒人听的“童话”  — David 9

记得听说“端到端”学习时的感受吗?有人告诉你只要准备训练数据集,其他的什么也不用做,等着模型收敛就行,就像有人告诉你上帝造了亚当,只需接受,不用怀疑。但是当实践时,所谓的“卖点”完全不是那么回事,代码不work要内部调试,模型性能差也要内部调优。

如果你运气好不用调试也不用调优,那么来自AMLab(阿姆斯特丹机器学习实验室)的这篇文章还会给你至少3个理由, 指出“端到端”的问题:

1. 所有的“端到端”深度模型每次迭代都需要对整体进行反向传播,这就意味着显存GPU的大量消耗:

2. 如果实现了分层隔离的神经网络模型,可以更高效地采用分布式边缘计算

3. 生物界或自然界普遍不是完全“端到端”的,记得我们之前讲过的脉冲神经网络吗?拿神经元举例,信息传递不是直入直出的,神经网络是有延时的,大脑和皮肤不是直接共享信息的,而是由中间的绿色兴奋区域(active zone)做中转的,脑皮层的神经元如果需要信息,他会自己去active zone拿:

来自:https://www.youtube.com/watch?v=C_2Q7uKtgNs&t=1433s

即,实际人类神经网络中的各个模块的独立性或许超出的我们的想象。换句话说, 继续阅读“去端到端”化和复杂loss:梯度隔离的分层神经网络模型Greedy InfoMax(GIM),深入了解自监督学习#2,InfoNCE loss及其对分层脉冲神经网络的启发

更高级的认知是“感知”问题吗?意识先验(Consciousness Prior),正演模型(forward model), 对比学习(Contrastive Learning), “系统2”的认知问题, AAAI2020主题演讲精要(二)

人类大脑可以在“现实”和“想象”之间自由切换,这种控制力一部分可能是“感知”驱动的,但是,另一部分是什么? — David 9

显然未来几年的趋势是,神经网络拥护者(Hinton等人)不再满足于模拟“低级”感知了,当下有一堆类似“因果推理”“长期计划”“抽象想象”“知识提炼和探索”等更高级的认知问题需要模拟!这种认知问题科学家们叫:“系统2″的认知(System 2 Processing 。

来自:https://www.youtube.com/watch?v=EeqwFjqFvJA&t=3745s

与视觉皮层的“快速直觉”认知不同(如CNN),System 2的认知更“慢”,更“高层”,但是,如何达到这种认知,没有人明确地知道。当然Hinton等人把他们的赌注下在“人工感知”上,即,只要原始的感知一层层不断往上堆,机器也能感受到“因果推理”,“长期计划”等的合理性,进而采取行动。而另一些认知科学家不这么认为,毕竟,没有理论依据也很难让人相信,更高级的认知是从“一大片混沌”中诞生的。

这也就是为什么Yoshua Bengio和Gary Marcus的AI辩论也不会有什么实质性进展。Yoshua Bengio等神经网络拥护者更关心怎么把可以工作的智能系统建成,而Gary Marcus更关心人类认知的理论探讨

David认为“感知”一定重要(人是感知丰富的动物),但Hinton等人似乎遗漏了什么,我们稍后探讨。

先回到主题,接着上一篇,这次AAAI2020主题演讲上另两位(Yann Le Cunn和Yoshua Bengio)也带来了他们对更高级“感知”的假设和实现细节。

当然,他们都在试图解决System 2的更高级认知问题,Yann Le Cunn提了3个重要方向,

1. 自监督学习(self-supervised learning),这个David 在以前较详细讨论过,不赘述了

2. 对比学习(Contrastive Learning)隐变量基于能量模型(latent variable energy-based models):

来自:https://www.youtube.com/watch?v=UX8OubxsY8w&t=5906s

对比学习的底层的目标和胶囊网络相似,即人类有一种天性是:我们在预测和行动前,早就在大脑中存了类似“缓存”的东西(心理期望),拿着

...阅读更多...加入David9的星球群阅读所有文章:

加入David9的星球群,获得通行密码 , 阅读全文