前沿 Archives | 第18页共37页 | David 9的博客 --- 不怕"过拟合"

吴恩达新书《Machine Learning Yearning》读后感，验证(测试)集怎么选？如何高效分析性能？降低可避免偏差和方差？实操经验总结

如果你要选验证集或测试集，就选那些你预料未来数据的样子（Choose dev and test sets to reflect data you expect to get in the future and want to do well on）— 吴恩达

前不久吴恩达新书“机器学习念想”（Machine Learning Yearning）手稿完工（不知道这样翻译会不会被打。。）David 9 忍不住拜读，把读后感总结如下，欢迎指正和交流：

纵观全书分三部分：

怎么构建验证集和测试集？
如何构建有效的性能和错误分析机制？如何优化模型？
端到端模型的一些讨论

事实上，上手深度学习（机器学习）项目最先要做的和模型本身关系不大，而是构思性能验证系统和错误分析的有效机制。

艺术品最华丽的可能是最后的润色，但其构思、规划以及推敲往往占据大师平时更多心力：

同样，构建一个高效的深度学习系统，首先要有一个好的验证体系、推敲整理过的数据集、高效的错误分析机制，这样最后的润色（模型优化）才能水到渠成。

1. 谈谈验证(测试)集怎么选？

书中建议是，如果你要选验证集或测试集，就选那些你预料未来数据的样子。因此训练集样本分布不需要和验证集（测试集）相同。用白话说就是以你预料“现场”的样本分布为准。继续阅读吴恩达新书《Machine Learning Yearning》读后感，验证(测试)集怎么选？如何高效分析性能？降低可避免偏差和方差？实操经验总结

谷歌大脑的“世界模型”(World Models)与基因学的一些思考，MDN-RNN与Evolution Strategies结合的初体验与源码

我们现在看到的智能算法都不是“可生长”的，遗传算法和ES只是强调了基因的“变异”，神经网络只是固定网络结构；而生物界的基因却可以指导蛋白质构成并且“生长”。— David 9

今年上半年谷歌大脑的“世界模型”(World Models)早已引起David 9的注意，今天终于有机会和大家叨叨。对于CarRacing-v0这个增强学习经典游戏：

来自：https://github.com/AdeelMufti/WorldModels

世界模型(World Models)与其他增强学习相比有一些明显优势：

优势的来源David 9总结有两点：1. 模型拼接得足够巧妙，2. 抓住了一些“强视觉”游戏的“痛点”。 继续阅读谷歌大脑的“世界模型”(World Models)与基因学的一些思考，MDN-RNN与Evolution Strategies结合的初体验与源码

AutoKeras：开源AutoML初体验，自动搜索和构建最优深度模型，贝叶斯搜索器，以及mnist示例代码

20 美元/时的AutoML太贵？试试AutoKeras吧

自动搜索构建深度学习模型和调参一直是数据科学家们向往的工具，而我们知道Google AI发布的AutoML是要收费的，如果想要开源的而且想要对AutoML背后技术一探究竟的，可以看看这款AutoKeras，

AutoKeras开发处于初期阶段，它基于Keras（也有pytorch），而keras我们知道是基于TensorFlow，所以GPU利用可以不用担心（只要你安装了gpu版TensorFlow即可）。由于Keras代码极其简洁，autokeras上手也较容易。

所以直接上autokeras版mnist训练代码：

from keras.datasets import mnist
from autokeras.image_classifier import ImageClassifier

if __name__ == '__main__':
    (x_train, y_train), (x_test, y_test) = mnist.load_data()
    x_train = x_train.reshape(x_train.shape + (1,))
    x_test = x_test.reshape(x_test.shape + (1,))

    clf = ImageClassifier(verbose=True, augment=False)
    clf.fit(x_train, y_train, time_limit=12 * 60 * 60)
    clf.final_fit(x_train, y_train, x_test, y_test, retrain=True)
    y = clf.evaluate(x_test, y_test)
    print(y * 100)

这里有几个要点，第一，代码需要在python3.6上跑否则会有兼容性问题（目前autokeras只支持python3.6），继续阅读AutoKeras：开源AutoML初体验，自动搜索和构建最优深度模型，贝叶斯搜索器，以及mnist示例代码

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30