修订特征已经变得切实可行, “特征矫正工程”是否会成为潮流?

如果要保持某个发明是黑盒状态,人类必须保证其不停的发展,这几乎是不可能的 —— David 9

人们有两个重要的动机把一切新工具看做白盒去研究:1. 如果工具出了问题,从内部机制寻求解决是常规的方法,2. 每个人都有信心认为自己的见解比别人独到,所以如果这个工具是一个黑盒,一定是之前没有很好地被理解。

神经网络也是这样一种工具。并且白盒化过程在视觉模型中尤为明显,近期的两个项目很好地反映出这个过程。

其一是yolov9视觉检测模型PGI(Programmable Gradient Information)可编程梯度信息改进。

信息瓶颈原理指出,随着网络的深度加深,图像在网络传播的过程中不可避免地会有信息损失,输入与输出的互信息会不断减小:

当然,把模型的参数量变大可以缓解这种问题。但依旧不能很好地解决:

不同网络架构的随机初始权重输出特征图的可视化结果:(a)输入图像,(b)PlainNet,(c)ResNet,(d)CSPNet和(e)yolov9的GELAN
不同网络架构的随机初始权重输出特征图的可视化结果:(a)输入图像,(b)PlainNet,(c)ResNet,(d)CSPNet和(e)yolov9的GELAN更好地解决了上述问题

yolov9为了更好地解决上述问题,PGI主要由三个部分组成:(1)主分支:用于推理的架构,(2)辅助可逆分支:生成可靠的梯度,为主分支提供后向传输,(3)多级辅助信息:控制主分支学习可规划的多级语义信息:

PGI架构
PGI架构

这些辅助的分支在训练时需要,但预测阶段并不需要,因此,可以理解为在训练阶段的一种“特征矫正工程”,但和一般眼科矫正不同的是,它更像一种植入矫正技术,在特征生成的每一层都有“植入”。

另一个令人印象深刻的项目 继续阅读修订特征已经变得切实可行, “特征矫正工程”是否会成为潮流?

如何不入俗套并像专家一样训练模型? —— David9的打趣帖子

来自deci.ai的专家提了一些不入俗套的训练模型的建议,david觉得不错,分享给大家,如果你每天还在机械化地调整模型超参数,不妨看看下面几个建议:

1)  使用指数滑动平均EMA(Exponential Moving Average). 

当模型容易陷入局部最优解时,这种方法比较有效。

EMA 是一种提高模型收敛稳定性,并通过防止收敛到局部最优来达到更好的整体解的方法。— Shai Rozenberg

公式大致如下: 2)  权重平均

每个人都喜欢免费额外的性能提高。

加权平均可以达到这一点。当然,训练N个模型再平均他们的权重开销比较大。另一种更节省成本的方式是,把比较好的那些epoch的模型拿出来做平均,这样只要训练一次,又能达到意想不到的效果。

3)  batch积累

如果有一些模型训练开销很大,而且需要的GPU显存又很多,你不得不降低batch size达到训练的目的。然而,和原来训练代码配套的超参数似乎就要重新调整了? 继续阅读如何不入俗套并像专家一样训练模型? —— David9的打趣帖子

15年后,Numpy已不是一个普通的数组计算库,而是一个高维编程世界的“中枢”

编程世界也有“要塞”(或“中枢”),就是那些每个人都要用,而每个人都想个性化定制,每个人又都不得不参与协商并遵守的那些“协议” —— David 9

人类的合作有些神奇,起初是懒惰(或贪婪)使用别人已造好的基础工具,然后越来越多人使用,人们的精力转而投入到这个工具的标准上,因为他们都想用这个基础工具造自己的工具,而不是再造一个差不多的标准。 Numpy近15年的发展就很类似。前不久Numpy论文登上Nature。Numpy已经俨然不是当初普通的数组计算库这么简单了,而是维护了一个高维编程世界的通用协议,以及处理高维数组的一些公认思路:

来自:https://www.nature.com/articles/s41586-020-2649-2

如上,

...阅读更多...加入David9的星球群阅读所有文章:

加入David9的星球群,获得通行密码 , 阅读全文