RL强化学习的新玩法和新想象——谈谈强化学习突破效率的问题

你可以说人类智能是大脑的模型“复杂”或“丰富”,但不能否认的是,其自由“切换”的效率(能力)也是如此惊人!很难想象未来AI不会向这个方向突破 — David 9

强化学习(RL)是一个有意思的存在,每一次算法 (AI)浪潮都可以让强化学习受益,但,每一次算法浪潮都不是因为强化学习的突破而产生。

我们以前聊过,如果世界上只有两种模型;“解释其他模型的模型”和“被其他模型解释的模型”,那么无疑,RL一直是后一种,甚至,大家没时间或没办法解释RL,因为大家都急着应用它做些什么。

回顾2020, RL依旧像个黑洞不断吸收着其他算法的养分,预计没有暂停的趋势,而人类生存的原始驱动就是各种“有形”或“无形”的reward(目标):

但RL要让计算机懂得“有形”或“无形”的目标并不容易,其令人诟病的学习效率问题david总结了下面几个:

1. 突破应用效率(开发效率)。

即使当RL算法开发完毕,在实际部署中依旧会有这样那样的问题。为了加速RL应用到真实世界,谷歌研究人员曾推出真实世界RL开发包。方便了RL开发中的系统延时,系统约束,系统扰动等的调试。

“系统延时”:现实中实时系统在做控制时,经常会有观测,回报的延时,

上图分别是“行为延时”,“观测延时”,“回报延时”的实验分析,来自:https://ai.googleblog.com/2020/08/a-simulation-suite-for-tackling-applied.html

“系统约束”:超出范围的无效行为的约束,

红屏表示无效运动行为的出现

“系统扰动”:对环境的扰动可以增强RL在真实世界的表现,

增加一些实验体的变化,和环境的摩擦变化,可以快速实验RL模型的鲁棒性

2. 突破数据效率(抽样效率)。

这一类的效率更多的是静态训练效率。agent学习体已经有了一些环境中的经验数据,如何高效地利用这些已有的数据加快RL训练?在这里会有很多有意思的创新。

其中一个是众所周知的“世界模型”(world model),具有代表性的是 继续阅读RL强化学习的新玩法和新想象——谈谈强化学习突破效率的问题

可以认真一点思考人工智能伦理吗?——【通用人工伦理】【人工道德行为体】

很难否定伦理是由情感主导的,同样也难以否定主导伦理的情感必须是“交互”的,并不是独立于社会之外的情感。— David 9

前不久,谷歌AI伦理研究员工Timnit Gebru被辞退的风波发酵,但在David看来这和普通的不平等事件相似,没有必要加上“AI”的名头,况且目前的AI没有能力和动机去歧视人类(或一部分人类),只有一部分人类去歧视另一部分人类的可能。

并且,谷歌的一些人事项目的弥补,只是隔靴搔痒,和大多数其他AI伦理项目一样,只是审查工具人员调动(梵蒂冈AI伦理计划和联合国的AI伦理委员会)。但,真正把主动权交给AI的——所谓“通用人工伦理”的研究却相当少,而这,我认为并不是不可能(至少某种程度上)。在走向通用AI伦理的道路上,david认为这些问题更值得思考:

情感——重要因素

善与恶的知识不是别的,而是我们所意识到的快乐与痛苦的情感 —— 斯宾诺莎

如果大多数人在情感上无法接受,很难说伦理上是正确的。

许多学者认为伦理(善和恶的区分)是人意识到的情感。认知神经科学家也认为,道德判断两个重要组成就是:有意识的认知推理过程(理性)和情绪启动的直觉(情感)过程。而前者似乎只是判断事情真相,后者才左右普遍的看法。如恐怖谷理论认为,当机器人与人类的相似程度达到一个特定程度的时候,人们会(对任何瑕疵)突然变得极其负面和反感,

恐怖谷理论

而反对者认为,这种情绪在人与人的接触中也会 继续阅读可以认真一点思考人工智能伦理吗?——【通用人工伦理】【人工道德行为体】

ICLR2021【lambda神经网络】Transformer模型虽被改得面目全非,看似的“颠覆”更多是“侵蚀”,#局部注意力和特征提取

也许技术也存在“明斯基时刻”,

当那些“侵蚀”变为“颠覆”——David 9

因为人类是“感知”(欠理性)的动物,所以那些用“思潮”的力量影响(或鼓动)别人的人,也许才是最“可怕”的,其中也包括技术浪潮,神经网络和Transformer并没有那么神奇,但它们就像雪山顶上最高的那团雪球,却越滚越大,把周围的雪吸拢进来。

多数创新,是之前无数的“侵蚀”和修改积累而来的,但是就是有一些“颠覆”的创新,让你相信一切可以从头开始,一切变得会很不一样!但其实,我们也许只是达到另一个阶段而已。

就像许多论文喜欢杜撰一个“不一样”的名字,比如今天聊的lambda神经网络”,目前在ICLR2021预审中表现不错,让我们看看它有什么“不一样”,

就David的观察和ykilcher的视频分析lambda神经网络是对注意力机制的完善改进之一,而不是“颠覆”性的,但其中聪明的技巧值得我们学习,我就ykilcher的视频分析展开讨论: 

首先,目前现有的Transformer改进都是基于原有的短板(长序列难支持,计算量大,速度慢等)的改进。lambda神经网络也不例外,

众所周知,注意力机制(Transformer的核心),直白说,是把一组序列,映射到另一组序列,而中间的矩阵,就是负责映射(包含权重)的注意力矩阵:

来自:https://youtu.be/3qxJ2WD8p4w

其中,k和q就是注意力机制中的key,query,试想,如果输入序列非常长, 继续阅读ICLR2021【lambda神经网络】Transformer模型虽被改得面目全非,看似的“颠覆”更多是“侵蚀”,#局部注意力和特征提取