卡内基梅隆大学(CMU),那些经受住时间考验的机器学习论文–第二弹:动态主题模型

这一弹,接着上一期,这次,我们要解释一种典型的机器学习算法——动态主题模型(Dynamic Topic Model)。

概率主题模型概率图模型是每个做文本挖掘的学者的必学课题。其中最常见的主题模型是隐含狄利克雷分布(LDA)。当然,本文的动态主题模型也是主题模型的一种,不过为了方便理解,我们还是来回顾一下LDA。

来自:https://en.wikipedia.org/wiki/Latent_Dirichlet_allocation
来自:https://en.wikipedia.org/wiki/Latent_Dirichlet_allocation

我们定义:

α 是狄利克雷先验的参数,是每个文档可能的主题分布

\theta _{m},当α 落实到一个文档m,\theta _{m}是文档m的主题模型。而且α代表的是狄利克雷分布,\theta _{m}代表的是多项式分布。 α很明显是\theta _{m}共轭先验

β狄利克雷先验的参数,但是,它是每个主题可能的文字分布

{\displaystyle z_{mn}} 是在文档m中,第n个文字的主题。 继续阅读卡内基梅隆大学(CMU),那些经受住时间考验的机器学习论文–第二弹:动态主题模型

究竟什么是Word2vec ? Skip-Gram模型和Continuous Bag of Words(CBOW)模型 ?

上一期的Pycon 2016 tensorflow 研讨会总结 — tensorflow 手把手入门 #第二讲 中, 谈到过word2vec, 但是究竟什么是Word2vec ? 以及skip-Gram模型和CBOW模型究竟是什么? 也许还有小伙伴不是很明白, 这一次我们来好好讲一下这两种word2vec:

  • 连续Bag-of-Words (COBW)
    • 从上下文来预测一个文字
  •  Skip-Gram
    • 从一个文字来预测上下文

其实, 用一个向量唯一标识一个word已经提出有一段时间了. Tomáš Mikolov 的word2vec算法的一个不同之处在于, 他把一个word映射到高维(50到300维), 并且在这个维度上有了很多有意思的语言学特性, 比如单词”Rome”的表达vec(‘Rome’), 可以是vec(‘Paris’) – vec(‘France’) + vec(‘Italy’)的计算结果.

接下来, 上word2vec示意图:

screen-shot-2015-04-10-at-4-16-00-pm

很显然, word2vec是只有一个隐层的全连接神经网络, 用来预测给定单词的关联度大的单词. 继续阅读究竟什么是Word2vec ? Skip-Gram模型和Continuous Bag of Words(CBOW)模型 ?

#6 理解 LSTM 网络

循环神经网络(RNN)

人们的每次思考并不都是从零开始的。比如你在阅读这篇文章时,你基于对前面的文字的理解来理解你目前阅读到的文字,而不是每读到一个文字时,都抛弃掉前面的思考,从头开始。你的记忆是有持久性的。

传统的神经网络并不能如此,这似乎是一个主要的缺点。例如,假设你在看一场电影,你想对电影里的每一个场景进行分类。传统的神经网络不能够基于前面的已分类场景来推断接下来的场景分类。

循环神经网络(Recurrent Neural Networks)解决了这个问题。这种神经网络带有环,可以将信息持久化。

14585451475265 继续阅读#6 理解 LSTM 网络