神经网络 Archives | 第10页共10页 | David 9的博客 --- 不怕"过拟合"

命名实体识别 (NER) 是语义理解中的一个重要课题。NER就像自然语言领域的“目标检测”。找到文档D 中的名词实体还不够，许多情况下，我们需要了解这个名词是表示地点（location），人名（Person）还是组织（Organization），等等：

来自：https://www.slideshare.net/bperz/15-sdmpolyglot-ner

上图是NER输出一个句子后标记名词的示例。

在神经网络出现之前，几乎所有NER半监督或者非监督的方法，都要依靠手工的单词特征或者外部的监督库（如gazetteer）达到最好的识别效果。

手工的单词特征可以方便提炼出类似前缀，后缀，词根，如：

-ance， —ancy 表示：行为，性质，状态/ distance距离，currency流通
-ant，ent 表示：人，…的/ assistant助手,excellent优秀的
–ary 表示：地点，人，事物/ library图书馆，military军事

可以知道-ant结尾的单词很可能是指人，而-ary结尾更可能指的地点。

而外部的监督库（如gazetteer），把一些同种类的实体聚合在一起做成一个库，可以帮助识别同一个意思的实体，如：

auntie其实和aunt一个意思：姨妈

Mikey其实是Mike的昵称，都是人名

今天所讲的这篇卡内基梅隆大学的论文，用RNN神经网络的相关技术避开使用这些人工特征，并能达到与之相当的准确率。

为了获取上述的前缀，后缀，词根等相关特征，文章对每个单词的每个字母训练一个双向LSTM，把双向LSTM的输出作为单词的特殊embedding，和预训练eStack LSTM的算法识别命名实体，感兴趣可以继续阅读原论文。mbedding合成最后的词嵌入（final embedding）：

上图是对单词Mars（火星）构建字母级别的双向LSTM，并合并到预训练的单词embedding （来自：https://arxiv.org/pdf/1603.01360.pdf ）

双向LSTM可以捕捉字母拼写的一些规律（前缀，后缀，词根）, 预训练的embedding可以捕捉全局上单词间的相似度。两者结合我们得到了更好的词嵌入（embedding）。继续阅读当RNN神经网络遇上NER（命名实体识别）：双向LSTM，条件随机场（CRF），层叠Stack LSTM，字母嵌入

如果人脑在执行任务时有特定模式，那么神经网络在增强学习中也应该有特定模式，而不是杂乱无章地更新 — David 9

我们在之前的文章中讨论过，Evolution Strategy和遗传算法等传统算法都可以在深度增强学习中发挥作用。其实，人们早就在神经网络中植入各种传统机器学习的方法（包括L2正则法等等）。

在2015年google的论文中就提到结合变分推断（variational inference）启发式更新神经网络的内部参数：

其性能效果堪比dropout方法，并且在增强学习中有较好表现。

那么，贝叶斯深度学习或者说变分推断（variational inference）如何应用在神经网络呢？

理论上，对于一般的深度神经网络，Loss如下：

θ 是神经网络的内部参数集。xi, yi 即样本集中的一个样本。上式只是让训练损失最小。

即，要找到一个最好的 θ* ，让 Lⁿ(θ) 最小。继续阅读当变分推断（variational inference）遇上神经网络，贝叶斯深度学习以及Pytorch开源代码

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30