增强学习 Archives | 第4页共5页 | David 9的博客 --- 不怕"过拟合"

深度神经进化，Uber AI实验室新发现：遗传算法(GA)在深度增强学习中的出色表现(Deep Neuroevolution)

当深度网络应用在增强学习中，人们发现一些训练的捷径，但是没有统一的看法。每当深度网络应用在一个领域，总是会重复类似的故事，这也许正是深度学习有意思的地方 — David 9

如果你想入深度增强学习的坑，你一定发现在增强学习domain下，深度网络构建有那么多技巧。

不像一般的机器视觉，深度网络在增强学习中被用来理解环境（states）和回报值（reward），最终输出一个行为策略。

因此关注的最小粒度其实是行为（action），依旧使用传统梯度下降更新网络并不高效（行为的跳跃很大，梯度更新可能很小）。另外，增强学习其实是可以高并行的问题，试想如果你有很多分身去玩Dota，最后让他们把关键经验告诉你，就省去了很多功夫。

在经验和行为主导的增强学习背景下，催生了DQN，A3C，Evolution Strategies等一系列深度网络的训练方法。包括我们今天的主角：遗传算法（GA）。

Uber AI实验室发现GA对行为策略的把控，可以结合到深度网络中，他们称之为深度神经进化（Deep Neuroevolution），在某些领域的表现甚至超过了DQN，A3C，Evolution Strategies。继续阅读深度神经进化，Uber AI实验室新发现：遗传算法(GA)在深度增强学习中的出色表现(Deep Neuroevolution)

一篇有意思的demo paper: 多智能体的RL增强学习平台, 理解群体智能和社会现象学，AAAI2018论文选读

社会学家似乎也应该拿起AI的工具 — David 9

国人的勤奋总是令人惊讶，上海交大和伦敦大学学院(UCL）在今年nips大会和AAAI2018上发表了一篇有意思的demo paper，MAgent: 一个多智能体的RL增强学习平台, 帮助理解群体智能和社会现象学。先看一下MAgent可视化模拟红蓝两军战斗的demo，通过训练一个共享参数DQN，最后宏观上智能体学会一些协同策略：包围进攻（图1），合力追击（图2）：

作者不仅开源了MAgent平台，而且平台可扩展性和性能似乎相当不错，文章称在单GPU机器上可以同时训练100万个agent智能体，考虑到额外的图形模拟的渲染压力同时有DQN训练压力，C++代码性能确实不错（如果训练时间可以接受的话）。继续阅读一篇有意思的demo paper: 多智能体的RL增强学习平台, 理解群体智能和社会现象学，AAAI2018论文选读