德州扑克AI(Libratus)的背后:不完美信息博弈中,求解安全嵌套的子博弈, #NIPS 2017最佳论文奖

如果AI的本质是在可接受时间内搜索到最优解,那么容易定义最优解的问题都是AI可以解决的。这样,人类的“情感”看起来如此“珍贵”,因为它很难用人工定义“最优解” — David 9

相信大家还记得2017年初人工智能Libratus完胜德州扑克顶级玩家的事,年底卡耐基梅隆大学(CMU)在NIPS 2017上公开这一贡献并获得最佳论文奖。这一进展之所以让人兴奋,是因为它为不完美信息博弈(Imperfect-Information Games)问题提供了新的解决思路:

来自:https://www.youtube.com/watch?v=tRiaGahlyy4

棋类游戏,双方都是共享一切信息的,这种博弈称为完美信息博弈。而扑克类,谈判,商业决策等类似问题,双方的信息都是不公开给对方的,这就提高了AI算法搜索最优解的难度。

对于完美信息博弈,每一步Action引出下一步子状态,接下来在子状态中求解最优解即可:

来自:https://www.youtube.com/watch?v=tRiaGahlyy4

对于不完美信息博弈,我们不能安心地解决眼前的子问题,因为我们同时必须考虑:“对手的手牌现在会是什么样的?”,“他下一次会用什么策略?”等等烦人的问题,因此许多平行的子问题是我们必须同时考虑的:

来自:https://www.youtube.com/watch?v=tRiaGahlyy4

继续阅读德州扑克AI(Libratus)的背后:不完美信息博弈中,求解安全嵌套的子博弈, #NIPS 2017最佳论文奖

Facebook渐变神经网络: 通过任意指定属性,操纵生成图像,NIPS2017论文选读1

我们对信息过滤的本质知之甚少 — David 9

还记得我们在GAN大盘点中聊到的infoGAN吗?通过控制隐信息c可以生成特定条件的图像(倾斜更高,宽度更大):

来自: https://arxiv.org/pdf/1606.03657.pdf

今年Facebook在NIPS2017上发表的Fader Networks(渐变网络)更近一步,对于更抽象的特征也可以进行条件生成

来自:https://arxiv.org/pdf/1706.00409.pdf

如上图,“年轻”,“苍老”,“男性”,“女性”,“是否戴墨镜”,都是可以在生成器生成阶段任意指定。

但是有没有注意到上图demo中,头发的样子始终是不变的,看来Facebook还没有很好地解决头发生成的问题?男性和女性的头发样式明显应该不同,年轻和年老时的头发样式和色泽肯定也是不同的。 继续阅读Facebook渐变神经网络: 通过任意指定属性,操纵生成图像,NIPS2017论文选读1

一篇有意思的demo paper: 多智能体的RL增强学习平台, 理解群体智能和社会现象学,AAAI2018论文选读

社会学家似乎也应该拿起AI的工具 — David 9

国人的勤奋总是令人惊讶,上海交大和伦敦大学学院(UCL)在今年nips大会AAAI2018上发表了一篇有意思的demo paper,MAgent: 一个多智能体的RL增强学习平台, 帮助理解群体智能和社会现象学。先看一下MAgent可视化模拟红蓝两军战斗的demo,通过训练一个共享参数DQN,最后宏观上智能体学会一些协同策略:包围进攻(图1),合力追击(图2):

来自:https://github.com/geek-ai/MAgent

来自:https://github.com/geek-ai/MAgent

作者不仅开源了MAgent平台,而且平台可扩展性和性能似乎相当不错,文章称在单GPU机器上可以同时训练100万个agent智能体,考虑到额外的图形模拟的渲染压力同时有DQN训练压力,C++代码性能确实不错(如果训练时间可以接受的话)。 继续阅读一篇有意思的demo paper: 多智能体的RL增强学习平台, 理解群体智能和社会现象学,AAAI2018论文选读