工具 Archives | David 9的博客 --- 不怕"过拟合"

修订特征已经变得切实可行， “特征矫正工程”是否会成为潮流？

如果要保持某个发明是黑盒状态，人类必须保证其不停的发展，这几乎是不可能的 —— David 9

人们有两个重要的动机把一切新工具看做白盒去研究：1. 如果工具出了问题，从内部机制寻求解决是常规的方法，2. 每个人都有信心认为自己的见解比别人独到，所以如果这个工具是一个黑盒，一定是之前没有很好地被理解。

神经网络也是这样一种工具。并且白盒化过程在视觉模型中尤为明显，近期的两个项目很好地反映出这个过程。

其一是yolov9视觉检测模型的PGI(Programmable Gradient Information)可编程梯度信息改进。

信息瓶颈原理指出，随着网络的深度加深，图像在网络传播的过程中不可避免地会有信息损失，输入与输出的互信息会不断减小：

当然，把模型的参数量变大可以缓解这种问题。但依旧不能很好地解决：

不同网络架构的随机初始权重输出特征图的可视化结果：（a）输入图像，（b）PlainNet，（c）ResNet，（d）CSPNet和（e）yolov9的GELAN更好地解决了上述问题

yolov9为了更好地解决上述问题，PGI主要由三个部分组成：（1）主分支：用于推理的架构，（2）辅助可逆分支：生成可靠的梯度，为主分支提供后向传输，（3）多级辅助信息：控制主分支学习可规划的多级语义信息：

这些辅助的分支在训练时需要，但预测阶段并不需要，因此，可以理解为在训练阶段的一种“特征矫正工程”，但和一般眼科矫正不同的是，它更像一种植入矫正技术，在特征生成的每一层都有“植入”。

另一个令人印象深刻的项目继续阅读修订特征已经变得切实可行， “特征矫正工程”是否会成为潮流？

如何不入俗套并像专家一样训练模型？ —— David9的打趣帖子

来自deci.ai的专家提了一些不入俗套的训练模型的建议，david觉得不错，分享给大家，如果你每天还在机械化地调整模型超参数，不妨看看下面几个建议：

1) 使用指数滑动平均EMA(Exponential Moving Average).

当模型容易陷入局部最优解时，这种方法比较有效。

EMA 是一种提高模型收敛稳定性，并通过防止收敛到局部最优来达到更好的整体解的方法。— Shai Rozenberg

它是这样工作的：

令 W_m 为执行优化步骤后的当前权重集
在下一个优化步骤之前复制这些权重
取刚刚复制的权重和上一步的权重的加权平均值
更新当前步骤，加权平均

公式大致如下： 2) 权重平均

每个人都喜欢免费额外的性能提高。

加权平均可以达到这一点。当然，训练N个模型再平均他们的权重开销比较大。另一种更节省成本的方式是，把比较好的那些epoch的模型拿出来做平均，这样只要训练一次，又能达到意想不到的效果。

3) batch积累

如果有一些模型训练开销很大，而且需要的GPU显存又很多，你不得不降低batch size达到训练的目的。然而，和原来训练代码配套的超参数似乎就要重新调整了？继续阅读如何不入俗套并像专家一样训练模型？ —— David9的打趣帖子

15年后，Numpy已不是一个普通的数组计算库，而是一个高维编程世界的“中枢”

编程世界也有“要塞”(或“中枢”)，就是那些每个人都要用，而每个人都想个性化定制，每个人又都不得不参与协商并遵守的那些“协议” —— David 9

人类的合作有些神奇，起初是懒惰(或贪婪)使用别人已造好的基础工具，然后越来越多人使用，人们的精力转而投入到这个工具的标准上，因为他们都想用这个基础工具造自己的工具，而不是再造一个差不多的标准。 Numpy近15年的发展就很类似。前不久Numpy论文登上Nature。Numpy已经俨然不是当初普通的数组计算库这么简单了，而是维护了一个高维编程世界的通用协议，以及处理高维数组的一些公认思路：

来自：https://www.nature.com/articles/s41586-020-2649-2

如上，

...阅读更多...加入David9的星球群阅读所有文章:

加入David9的星球群，获得通行密码 , 阅读全文

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30