RL强化学习的新玩法和新想象——谈谈强化学习突破效率的问题

你可以说人类智能是大脑的模型“复杂”或“丰富”,但不能否认的是,其自由“切换”的效率(能力)也是如此惊人!很难想象未来AI不会向这个方向突破 — David 9

强化学习(RL)是一个有意思的存在,每一次算法 (AI)浪潮都可以让强化学习受益,但,每一次算法浪潮都不是因为强化学习的突破而产生。

我们以前聊过,如果世界上只有两种模型;“解释其他模型的模型”和“被其他模型解释的模型”,那么无疑,RL一直是后一种,甚至,大家没时间或没办法解释RL,因为大家都急着应用它做些什么。

回顾2020, RL依旧像个黑洞不断吸收着其他算法的养分,预计没有暂停的趋势,而人类生存的原始驱动就是各种“有形”或“无形”的reward(目标):

但RL要让计算机懂得“有形”或“无形”的目标并不容易,其令人诟病的学习效率问题david总结了下面几个:

1. 突破应用效率(开发效率)。

即使当RL算法开发完毕,在实际部署中依旧会有这样那样的问题。为了加速RL应用到真实世界,谷歌研究人员曾推出真实世界RL开发包。方便了RL开发中的系统延时,系统约束,系统扰动等的调试。

“系统延时”:现实中实时系统在做控制时,经常会有观测,回报的延时,

上图分别是“行为延时”,“观测延时”,“回报延时”的实验分析,来自:https://ai.googleblog.com/2020/08/a-simulation-suite-for-tackling-applied.html

“系统约束”:超出范围的无效行为的约束,

红屏表示无效运动行为的出现

“系统扰动”:对环境的扰动可以增强RL在真实世界的表现,

增加一些实验体的变化,和环境的摩擦变化,可以快速实验RL模型的鲁棒性

2. 突破数据效率(抽样效率)。

这一类的效率更多的是静态训练效率。agent学习体已经有了一些环境中的经验数据,如何高效地利用这些已有的数据加快RL训练?在这里会有很多有意思的创新。

其中一个是众所周知的“世界模型”(world model),具有代表性的是 继续阅读RL强化学习的新玩法和新想象——谈谈强化学习突破效率的问题

在“扎根”与“开拓”之间权衡,再聊聊现阶段的强化学习Reinforcement learning

从环境中获得显式(或隐式)的回报(奖赏)信息,强化学习(RL)是AI算法中最接近人真实生活的算法。正是由于这一点,强化学习可以简单到玩一个街机小游戏,也可以复杂到模拟并解释人类某个社会问题。此外,强化学习的tradeoff可以说是包罗万象,曾经我们聊过RL中对经验抽样的艺术,RL需要用恰当的方式从之前的路径经验中获得信息:

你可能只试了两个结果,但你可能已经有了四个路径。来自:https://distill.pub/2019/paths-perspective-on-value-learning/

但是,岂止是权衡抽样。RL还要考虑回报是否稀疏(少经验少信息)的问题angent(智能体)之间“合作”还是“竞争”的权衡went问题还有RL训练低效,需要可迁移的经验和提高抽样效率的问题。只要是一个智能体面对开放复杂环境可以遇到的问题,强化学习都可能遇到。更宽泛地,还包括我们今天要聊的“扎根”和“开拓”之间的权衡(David这样翻译Exploitation vs Exploration)。

“Exploitation vs Exploration”是把握强化学习的一个重要角度。

假如你要选择今天午饭在哪吃,你是会选择以前去过的餐厅,还是去未知的新餐厅试试?这就是典型的“扎根”和“开拓”的困境:

来自:https://lilianweng.github.io/lil-log/2018/01/23/the-multi-armed-bandit-problem-and-its-solutions.html#exploitation-vs-exploration

事实上如果经验足够丰富, 继续阅读在“扎根”与“开拓”之间权衡,再聊聊现阶段的强化学习Reinforcement learning

可解释,自解释,以及交互式AI的未来

宇宙没有义务让人理解,但AI有义务被人,并帮助人理解!  ——  David 9

一个AI模型,无论被工程师如何设计,它最终还是要和使用者交互,哪怕只是一个小小简单的判断分类问题。一旦它把判断结果信息传递给人类,人与机器之间的边界就变的难以划分。AI判断结果一定有错误信息(或AI够不着的问题),人类应该怎么处置?

是指出错误,留给AI去处理?还是人类自己搞一套应对机制?

当然,后一种更容易操作,把AI够不着的问题都留给人类解决,如医疗领域的SPIRIT-AI和CONSORT-AI协议,就旨在提供一套完善的医疗实验交互方针:

来自:https://www.nature.com/articles/s41591-020-1034-x

因为医疗临床实验需要更高规范和更低出错率。不仅仅是医疗,事实上,目前的多数领域的AI落地,交互,都需要大量的 继续阅读可解释,自解释,以及交互式AI的未来