如何不入俗套并像专家一样训练模型? —— David9的打趣帖子

来自deci.ai的专家提了一些不入俗套的训练模型的建议,david觉得不错,分享给大家,如果你每天还在机械化地调整模型超参数,不妨看看下面几个建议:

1)  使用指数滑动平均EMA(Exponential Moving Average). 

当模型容易陷入局部最优解时,这种方法比较有效。

EMA 是一种提高模型收敛稳定性,并通过防止收敛到局部最优来达到更好的整体解的方法。— Shai Rozenberg

公式大致如下: 2)  权重平均

每个人都喜欢免费额外的性能提高。

加权平均可以达到这一点。当然,训练N个模型再平均他们的权重开销比较大。另一种更节省成本的方式是,把比较好的那些epoch的模型拿出来做平均,这样只要训练一次,又能达到意想不到的效果。

3)  batch积累

如果有一些模型训练开销很大,而且需要的GPU显存又很多,你不得不降低batch size达到训练的目的。然而,和原来训练代码配套的超参数似乎就要重新调整了? 不!batch积累方法告诉你还有另外的方式。

  1. 对模型执行几个连续的前向传播  
这样,你的batch size虽然很小,但是由于积累的反向传播,它就好像在进行大batch size的训练一样。
 

...阅读更多...加入David9的星球群阅读所有文章:

加入David9的星球群,获得通行密码 , 阅读全文

发布者

David 9

邮箱:yanchao727@gmail.com 微信: david9ml

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注