一篇有意思的demo paper: 多智能体的RL增强学习平台, 理解群体智能和社会现象学，AAAI2018论文选读

社会学家似乎也应该拿起AI的工具 — David 9

国人的勤奋总是令人惊讶，上海交大和伦敦大学学院(UCL）在今年nips大会和AAAI2018上发表了一篇有意思的demo paper，MAgent: 一个多智能体的RL增强学习平台, 帮助理解群体智能和社会现象学。先看一下MAgent可视化模拟红蓝两军战斗的demo，通过训练一个共享参数DQN，最后宏观上智能体学会一些协同策略：包围进攻（图1），合力追击（图2）：

来自：https://github.com/geek-ai/MAgent

作者不仅开源了MAgent平台，而且平台可扩展性和性能似乎相当不错，文章称在单GPU机器上可以同时训练100万个agent智能体，考虑到额外的图形模拟的渲染压力同时有DQN训练压力，C++代码性能确实不错（如果训练时间可以接受的话）。

除了高效的可视化界面，MAgent还可以方便配置环境和智能体，同时提供reward描述语言，以下是狩猎游戏的reward描述：

来自：https://arxiv.org/pdf/1712.00600.pdf

a代表predator（狩猎者），b代表prey（猎物），如果a攻击（attack）了b，那么a得分1，b就得分-1，非常简单的游戏reward定义。局部来说，这样的定义非常简单，狩猎者要尽量攻击猎物，猎物要尽量躲避狩猎者。

但是当智能体增多，当经过一定训练，狩猎者学会了协同工作（包围猎物），这种习得的策略相当有意思：

来自：https://arxiv.org/pdf/1712.00600.pdf

上图2，包围的pattern有7个包围一个，也有4个包围一个和包围到墙角的情况。

早在20世纪，我们从生物学和社会学汲取灵感导致了一波集体智慧编程和基因编程的热潮。现在，深度增强学习反过来用深度网络和计算机的方法，帮助我们推演生物进化和社会现象的规律。

毫无疑问，我们身处在一个机器智能和人类智能高度融合的时代，以前也许是人类智能指导机器智能，而现在，机器智能正在各个方面指导人类智能。

可能在不久的将来，我们就分不清是机器智能指导人类智能，还是人类智能指导机器智能。

或许，当融合到一定阶段，第三种智能就会应运而生，不是基于人类的大脑也不是基于机器的蛮力？

参考文献：

本文采用署名 – 非商业性使用 – 禁止演绎 3.0 中国大陆许可协议进行许可。著作权属于“David 9的博客”原创，如需转载，请联系微信: david9ml，或邮箱：yanchao727@gmail.com

或直接扫二维码:

Bio
Latest Posts

David 9

邮箱：yanchao727@gmail.com 微信: david9ml

Latest posts by David 9 (see all)

发布者

David 9

邮箱：yanchao727@gmail.com 微信: david9ml 查看David 9的所有文章

发表回复取消回复