GAN Archives | 第2页共6页 | David 9的博客 --- 不怕"过拟合"

端到端基于模型的GAIL对抗模仿学习，Model-based GAIL，David 9的填坑贴

嘿，你这个叫GAIL小家伙，跟着大人学的时候，自己也要看看下一步— David 9

接着上次的GAIL讨论（GAN+增强学习），我们还有一个坑未填。即，基于模型的GAIL对抗模仿学习。首先回顾一下强化学习的简单体系：

1. 如果RL（强化学习）训练中给出回报（reward），其算法有我们熟悉的价值迭代value iteration算法和策略policy iteration算法，以及DPL（Direct Policy Learning假设一个policy）。

2. 如果没有明确回报（reward）给出，就涉及到更有意思的模仿学习IRL（Inverse Reinforcement Learning）。 一个实际的例子就是上次聊到的GAIL算法，简单说是假设回报函数，用GAN去识别目前的策略是否符合假设的回报函数（应有的策略）：

来自论文：http://proceedings.mlr.press/v70/baram17a/baram17a.pdf

此处GAIL就产生一个问题，如上图，GAN的判别器D可以判别生成器的策略和被模仿对象（专家策略）之间的区别，但是，当把行为错误δa反向传播时，只能估算一个大概的梯度δHV 给生成器（往往不稳定并且高方差的）。这就导致一个很明显的漏洞，这个判别器D只能根据当前的行为a、被模仿者的状态x1和模仿者的状态x2做判别，如果模仿者和被模仿者像下面这样：

继续阅读

GAN+增强学习, 从IRL和模仿学习, 聊到TRPO算法和GAIL框架, David 9来自读者的探讨，策略学习算法填坑与挖坑

如果你想成为大师，是先理解大师做法的底层思路，再自己根据这些底层思路采取行动？　还是先模仿大师行为，再慢慢推敲大师的底层思路？或许本质上，两种方法是一样的。 — David 9

聊到强人工智能，许多人无疑会提到RL (增强学习) 。事实上，RL和MDP(马尔科夫决策过程) 都可以归为策略学习算法的范畴，而策略学习的大家庭远远不只有RL和MDP：

来自：https://www.slideshare.net/samchoi7/recent-trends-in-neural-net-policy-learning

我们熟知的RL是给出行为reward（回报）的，最常见的两种RL如下：

1. 可以先假设一个价值函数（value function）然后不断通过reward来学习更新使得这个价值函数收敛。价值迭代value iteration算法和策略policy iteration算法就是其中两个算法（参考：what-is-the-difference-between-value-iteration-and-policy-iteration）。之前David 9也提到过价值迭代：NIPS 2016论文精选#1—Value Iteration Networks 价值迭代网络）继续阅读GAN+增强学习, 从IRL和模仿学习, 聊到TRPO算法和GAIL框架, David 9来自读者的探讨，策略学习算法填坑与挖坑

GAN和VAE都out了？理解基于流的生成模型（flow-based）: Glow，RealNVP和NICE，David 9的挖坑贴

生成模型一直以来让人沉醉，不仅因为支持许多有意思的应用落地，而且模型超预期的创造力总是让许多学者和厂商得以“秀肌肉”：

了解基于流的生成模型（flow-based）前，先回顾目前主流的两类生成模型GAN和VAE，David 9文章早已介绍过：

GAN简单粗暴，用两个深度网络（判别器D和生成器G）交替学习使得生成器G可以模拟现实生成样本，但是缺陷也是明显的：GAN不能直接了当地给出一个样本的隐分布的表征（你可以生成一个明星，但是你无法马上生成一个“微笑的”或“年轻的”明星），即，你很难用隐变量随意操纵生成的样本，你只知道生成的是任意样本（除非你重新设计GAN，像我们以前谈到的cGAN或者FaderNetworks等等。。）

VAE思路就完全不同，它继承了古老的贝叶斯理论，相信一切的创造可以用抽样后验概率来缔造。

你想创造新样本？好的，但是真实分布空间X 太复杂了，我们先意淫一个后验空间Z吧： 继续阅读GAN和VAE都out了？理解基于流的生成模型（flow-based）: Glow，RealNVP和NICE，David 9的挖坑贴

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30