一项无法忽视的无监督技术:OpenAI任务通用模型GPT,GPT-2,MuseNet,Attention 模型,#David 无监督系列

看似庞大复杂的工程都来自一个简单的愿望 — David 9

人一生的行为往往由一个简单(但看似虚无)的意义驱动,而机器模型的行为由很多具体任务(实际的loss函数)驱动。于是,有的人为了“爱”可以苦费心思建成辉宏的泰姬陵 ; 而深度学习模型在不同任务间切换都如此困难。

幸运的是,多数人的愿望是AI朝着更通用(非具体)的方向发展。所以我们可期待更通用AI模型的出现。甚至David期待将来“域”通用模型的出现,这里的domain指的至少是人体五官胜任的所有任务(视觉域语言域音频域触觉域嗅觉域等

拉回现实,OpenAI在语言域GPT(GPT-2音频域MuseNet模型已经取得了广泛关注。对于通用语言模型的探索,GPT早已不是先例:

从汲取上下文关系的CoVe词向量(有监督,任务单一),到无监督预训练并且多任务通用的GPT-2 单模型“通用”的能力正在不断增强。

事实上,看似庞大复杂1.5B参数的GPT-2GPT系列模型,背后的愿望非常简单:如何在模型不变的基础上,对于上层应用任务(Downstream tasks)通用 ?(模型层面通用)

GPT系列使用了预训练的语言模型+特定任务fine-tuning的方法做到这一点。

其中预训练无监督的,对于语料中的一组tokens,去预测下一个token最可能的情况(其中u是预训练的语料):

对于fine-tuning,把上一步中学到的大致语言模型,在用特别task的语料再针对地训练一遍(其中x,y是特殊task的语料):

这一步是有监督的,确切场景下的语料。

GPT总体模型架构如下:

相比较Attention模型,GPT更加简洁,输入是文本和位置的词向量(Text&Position Embed),不像Attention模型还需要编码器(encoder),GPT直接用12层叫做转换解码器( transformer decoder )的块预测出之后单词(tokens)出现的概率。

当然,每层transformer decoder 都借鉴了Attention模型的机制,注意力机制使得模型知道自己在执行什么语言任务(文本分类?文本相似度识别 ?文本推断? 还是文本问答?)以及文本有更长的关注范围:

如上图,这些任务都用特殊的形式输入transformer decoder ,其实启始用“start”标注,结尾用“extract”标注,中间用“delim” 分割。这样注意力网络得到更好训练。

最后值得一提的是,这种通用的无监督技术在音频领域也有所应用,具体请看openai的MuseNet.

 

  1. https://openai.com/blog/musenet/
  2. https://openai.com/blog/sparse-transformer/
  3. 深度学习中的注意力机制(Attention Model)
  4. Improving Language Understanding by Generative Pre-Training
  5. Generalized Language Models
  6. https://github.com/openai/gpt-2
  7. Language Models are Unsupervised Multitask Learners

本文采用署名 – 非商业性使用 – 禁止演绎 3.0 中国大陆许可协议进行许可。著作权属于“David 9的博客”原创,如需转载,请联系微信: david9ml,或邮箱:yanchao727@gmail.com

或直接扫二维码:

发布者

David 9

邮箱:yanchao727@gmail.com 微信: david9ml

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注