定向Dropout和L0正则,for.ai与Hinton老爷子的神经网络蒸馏、剪枝与量化新研究,稀疏化神经网络,控制参数间互信息

“信息”技术的开垦只是刚刚开始,对于AI工作者也许更恰当的一个名称是“信息控制师” — David 9

人脑可以随时拿出一个模型处理周围信息,而不是等待别人告诉它怎么处理信息。现在所谓”深度学习”的风口,其实都只能归为信息科技。这种需要人工告诉模型如何处理信息的智能,David姑且称为“信息控制智能”。

cnn做了自动的信息解构提取,rnn时序间的信息收集提取,gan把模糊化的loss信息学习提取,包括今天要聊到的DropoutL0正则都是对网络学到的内部信息做了控制。

如果大家知道神经网络蒸馏、剪枝或者模型压缩和量化,大家愈发会感到:这些就是实实在在的“信息工具”而已。拿L0正则举例(其实L1, L2正则都类似),L0能做到的只是把所有的非0权重以同样的力量拉扯到0,使得网络学到的参数信息更稀疏,L1, L2不同之处只是对于不同大小的参数θ ,拉扯的力量不同而已

来自:https://arxiv.org/abs/1712.01312

同样,for.ai与Hinton老爷子提出的定向Dropout(targeted-dropout也可以用来压缩模型(但不丢失信息或少丢失信息)。“彩票假设”的提出者们认为,一个密集、随机初始化的前向神经网络都可以找到一个子网络(所谓的彩票),能够比较稀疏并且和原网络差别极小的性能。 继续阅读定向Dropout和L0正则,for.ai与Hinton老爷子的神经网络蒸馏、剪枝与量化新研究,稀疏化神经网络,控制参数间互信息

“不变信息聚类”:满足你对无监督深度聚类的一点幻想,Invarient Information Clustering 深度网络 @牛津大学

人类是如此擅长“无监督”,以至于我们经常用肤浅的认知作出荒谬的结论 — David 9

人类擅长“无监督”,往往是因为“滥用”过往的经验妄下结论; 而AI模型的“无监督”,是对数据“妄下”的结论。自从有了深度网络的“大锤”,曾经传统聚类的钉子(k-means, 谱聚类等)似乎都被敲了一遍。

图像聚类和图像分割的无监督,来自:https://arxiv.org/pdf/1807.06653.pdf

而强行结合传统聚类的深度学习方法,缺乏语义过滤,谁能保证选取的特征都是对聚类任务有意义的?(回过头还得做PCA和白化)

别忘了,人类妄下的结论,都是有语义因果(我们有内在逻辑)。而机器对数据妄下的结论,缺乏因果联系。

为了摒弃传统聚类和神经网络的强拼硬凑,IIC(不变信息聚类)被提出 。IIC没有用传统聚类,而是对CNN稍作改动,用互信息最大化目标函数双输入two head)CNN的架构:

IIC架构,来自:https://arxiv.org/pdf/1807.06653.pdf

重要的地方有3点,

一, CNN网络用了双输入(不要误以为用了两个CNN,注意虚线部分是共享权重的)。为了做到无监督,模型每拿到一张图片x,都对这张图片做一次转换操作(平移、旋转或crop)得到另一张图片x’ 。因此,训练时是两次正向传播 + 一次反向传播的模式,把x,x’两张图片的两个输出zz’一次性得到再做loss计算。

继续阅读“不变信息聚类”:满足你对无监督深度聚类的一点幻想,Invarient Information Clustering 深度网络 @牛津大学

神经网络的“刚性”(自恰性):谷歌评估泛化能力新指标,Stiffness

如果训练神经网络可以与人一样,其训练日程可以精心规划编排、且有不同的学习曲线和阶段、在不同的领域有不同“天赋”自主学习。总之,训练过程可以足够“复杂”,是否可以诱导出更好的模型? — David 9

假设神经网络有一个确切的决策边界,这个决策边界足够复杂可以帮我们分类10000+个类别,想象一下可能是这样复杂的:

但无论如何,归结到一个决策边界,是这样的:

来自:https://arxiv.org/pdf/1901.09491.pdf

对于任意新的训练样本X1,如果要让X1loss更小,需要用一个梯度g1更新网络,对决策边界的影响势必导致另一个新样本X2loss可能变小、不变变大

继续阅读神经网络的“刚性”(自恰性):谷歌评估泛化能力新指标,Stiffness