16 4 月, 2018 | David 9的博客 --- 不怕"过拟合"

莫斯科物理技术学院（MIPT）前不久开源了聊天机器人DeepPavlov（基于TensorFlow和Keras），对于有志学习NLP的同学是个不错的借鉴。其中的语义理解分类模块，不是采用的马尔科夫随机场（CRF）或RNN，而是使用一维卷积去做语义分类：

这一模型是来自纽约大学的论文：Convolutional Neural Networks for Sentence Classification，用一维卷积为句子的语义分类。

值得注意的是，上图模型中，第一层句子的词嵌入输入（embedding）并不是单个通道，而是两个通道的。每个通道用相同的word2vec的embedding方法初始化（表征同一个句子），有意思的是，文章指出，把其中一个通道的词表征静态化（static），而另一个通道的词表征设为可训练的（non-static），这样两个通道组合在一起可以有更好效果。继续阅读一维卷积在语义理解中的应用，莫斯科物理技术学院（MIPT）开源聊天机器人DeepPavlov解析及代码

所有高级的创造，似乎都有一些“搜索”和“拼凑”的“智能” — David 9

模型自动设计已经不是新鲜事（H2O 的AutoML，谷歌的CLOUD AUTOML）。但是，高效的神经网络自动设计还是一个较有挑战性的课题（单纯用CV选模型太耗时间）。谷歌大脑的这篇新论文就提供了一种高效的搜索方法，称之为：Efficient Neural Architecture Search（ENAS）。

对于老版本强化学习的NAS，需要21天搜索出的cnn模型，ENAS只需要3小时就可以搜索出相同准确率的模型：

例子：对于CIFAR-10数据集ENAS搜索出的具有4.23%错误率的模型，只需要3小时左右。来自：https://arxiv.org/pdf/1802.03268.pdf

作者把这样的效率提高归功于候选子模型的参数共享上（相似子模型可以模仿迁移学习使用已有的权重，而不需要从头训练）。

为简单起见，我们先从生成四个计算节点的RNN循环神经网络进行解释：

即使是只有四个计算节点的RNN，也有多种有向无环图（DAG）的生成可能，如上左图，红色的箭头生成的RNN才是我们在右图中看到RNN。继续阅读你想要的神经网络自动设计，谷歌大脑帮你实现了：用参数共享高效地搜索神经网络架构（ENAS）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30