【独家】深入了解自监督学习(self-supervised learning),David 9的番外篇

作为一个物种,人类智能(human intelligence)正在向通用智能(general intelligence)的方向发展,不是吗?— David 9

最近看到Yann LeCun 的播客访谈,聊到人类智能,LeCun认为人类智能是非常specific的(具体的而远非“通用智能”):

来自访谈:https://www.youtube.com/watch?v=SGSOCuByo24&t=3545s

是的,为了在大自然长期生存下来,我们的祖先更关心与生存密切相关的东西。我们的视觉有盲区行为有太多模式,我们的内在“世界模型”也不“通用”(general)。

人类经常以为自己能应对世界的复杂变化,这只是他们一厢情愿的世界观,事实上,多数情况他们只能勉强应对(在自己构建的“世界模型”的舒适区)。

但这,足以支撑普通人的正常生存(即使他们用自以为用完整通用的智能应对一切), 原始人主要任务是擅长打猎就行(其他的复杂因素如天气可以用“神”来补充世界观):

远古人攻击野猪图

工业时代为了生存,人类甚至可能沦为机器的奴隶:

卓别林:《摩登时代》

所以,

与其说人类是通用智能,不如说我们是基于生存的智能 — David 9

David同意人类的局限是明显的,但借助外部工具如AI,人类正在变得越来越general,看到很多看不到的东西,这种人与机器的“互补智能”是未来不可估量的(有机会下次展开)拉回到主题: 

人类智能本身, 其实也有一个秘密武器:”自监督”学习

那么究竟什么是自监督?

首先,自监督有监督学习!哪怕目前缺少有标注的samples,他也会想办法加上一些假的(pseudo)label ,或者用其他间接的方式得到比较可信的label。其次, 继续阅读【独家】深入了解自监督学习(self-supervised learning),David 9的番外篇

【独家】深度学习可以有人类逻辑吗?如何建模逻辑思维?SATNet, PrediNet,深度学习的逻辑思维现状

不用担心机器没有逻辑,担心机器没有人类的逻辑 — David 9

所谓人类的逻辑思维,是一个很弱的概念,这和人类一直处于一个开放的复杂环境有关。“如果明天天气很热,我要买个大西瓜”,虽然你心里这么想,但当你明天遇到更诱人的椰子或者冰激凌,你会马上抛开这个想法。如何模拟人类这种快速迭代的弱逻辑,而在必要的时候使用强逻辑,或许是个超级难题。

但如果退一步,仅仅研究类似数独,拼图等强逻辑任务,神经网络已经提供了比以往更好的解决方案,最近卡内基梅隆(CMU) 的SATNet,google的PrediNet就是两个很好的例子。SATNetPrediNet都已经做到了端到端的网络(神经网络的扩充)。

我们知道在强逻辑领域,数学上都可以归结为SAT(命题可满足性)问题,SAT问题中最常见的就是MAX-SAT(最大可满足问题),如下:

来自维基百科

无论你给上式两个变量如何赋值,命题推演后你会发现上面的命题不可能为真(True)。现实中还有更复杂的强逻辑问题,如数独:CMU的SATNet就研究了解答上述复杂SAT问题的神经网络方案。与其说是神经网络, 继续阅读【独家】深度学习可以有人类逻辑吗?如何建模逻辑思维?SATNet, PrediNet,深度学习的逻辑思维现状

MIT实验室Speech2Face模型: 听声音想象人脸,David9的CVPR2019观察

你曾经有没有根据声音预测人的面容?或者,看一个陌生人一面,你在心里其实已经预测了他说话的声音?

今年CVPR2019上的Speech2Face模型就试图还原这一过程。虽然David认为模型上没有什么新意,但是这篇文章的一些实验结论很有意思。

来自:https://arxiv.org/abs/1905.09773

模型上中规中矩,先预训练Face encoderdecoder(灰色块部分),让模型可以压缩脸部特征并根据脸部特征向量还原出图像。然后,引入Voice Encoder,把音频一样压缩到特征向量(红色块部分),这个音频特征向量应该可以用来很好地预测对应的人脸,如果预测不好,就应该增加Loss,反向反馈训练。

了解原理之后,最有意思的其实是一些统计实验结论, 继续阅读MIT实验室Speech2Face模型: 听声音想象人脸,David9的CVPR2019观察