ICLR2021【lambda神经网络】Transformer模型虽被改得面目全非,看似的“颠覆”更多是“侵蚀”,#局部注意力和特征提取

也许技术也存在“明斯基时刻”,

当那些“侵蚀”变为“颠覆”——David 9

因为人类是“感知”(欠理性)的动物,所以那些用“思潮”的力量影响(或鼓动)别人的人,也许才是最“可怕”的,其中也包括技术浪潮,神经网络和Transformer并没有那么神奇,但它们就像雪山顶上最高的那团雪球,却越滚越大,把周围的雪吸拢进来。

多数创新,是之前无数的“侵蚀”和修改积累而来的,但是就是有一些“颠覆”的创新,让你相信一切可以从头开始,一切变得会很不一样!但其实,我们也许只是达到另一个阶段而已。

就像许多论文喜欢杜撰一个“不一样”的名字,比如今天聊的lambda神经网络”,目前在ICLR2021预审中表现不错,让我们看看它有什么“不一样”,

就David的观察和ykilcher的视频分析lambda神经网络是对注意力机制的完善改进之一,而不是“颠覆”性的,但其中聪明的技巧值得我们学习,我就ykilcher的视频分析展开讨论: 

首先,目前现有的Transformer改进都是基于原有的短板(长序列难支持,计算量大,速度慢等)的改进。lambda神经网络也不例外,

众所周知,注意力机制(Transformer的核心),直白说,是把一组序列,映射到另一组序列,而中间的矩阵,就是负责映射(包含权重)的注意力矩阵:

来自:https://youtu.be/3qxJ2WD8p4w

其中,k和q就是注意力机制中的key,query,试想,如果输入序列非常长, 继续阅读ICLR2021【lambda神经网络】Transformer模型虽被改得面目全非,看似的“颠覆”更多是“侵蚀”,#局部注意力和特征提取

在“扎根”与“开拓”之间权衡,再聊聊现阶段的强化学习Reinforcement learning

从环境中获得显式(或隐式)的回报(奖赏)信息,强化学习(RL)是AI算法中最接近人真实生活的算法。正是由于这一点,强化学习可以简单到玩一个街机小游戏,也可以复杂到模拟并解释人类某个社会问题。此外,强化学习的tradeoff可以说是包罗万象,曾经我们聊过RL中对经验抽样的艺术,RL需要用恰当的方式从之前的路径经验中获得信息:

你可能只试了两个结果,但你可能已经有了四个路径。来自:https://distill.pub/2019/paths-perspective-on-value-learning/

但是,岂止是权衡抽样。RL还要考虑回报是否稀疏(少经验少信息)的问题angent(智能体)之间“合作”还是“竞争”的权衡went问题还有RL训练低效,需要可迁移的经验和提高抽样效率的问题。只要是一个智能体面对开放复杂环境可以遇到的问题,强化学习都可能遇到。更宽泛地,还包括我们今天要聊的“扎根”和“开拓”之间的权衡(David这样翻译Exploitation vs Exploration)。

“Exploitation vs Exploration”是把握强化学习的一个重要角度。

假如你要选择今天午饭在哪吃,你是会选择以前去过的餐厅,还是去未知的新餐厅试试?这就是典型的“扎根”和“开拓”的困境:

来自:https://lilianweng.github.io/lil-log/2018/01/23/the-multi-armed-bandit-problem-and-its-solutions.html#exploitation-vs-exploration

事实上如果经验足够丰富, 继续阅读在“扎根”与“开拓”之间权衡,再聊聊现阶段的强化学习Reinforcement learning

复杂模型解释的几种方法(interpret model): 可解释,自解释,以及交互式AI的未来#2,第二弹

如果不存在至高的上帝,那么也不存在至高的解释,不论解释者做何种努力 — David 9

假想这样一个场景,世界上仅有两个至高的神(比如“宙斯”和“赫拉”),互相解释同一件事情。虽然宙斯和赫拉都是无所不知的神,但我们假设宙斯对赫拉并不是无所不知的(同样赫拉对宙斯也是):

那么,他们相互可以解释清楚同一件事情吗?

因为赫拉除了宙斯之外已经无所不知了,那么,宙斯向赫拉解释的过程就退化为:把自己对这件事所知道的信息传递给赫拉

如果宙斯需要解释的信息都是共同知道的信息,那这种信息传递较容易。但如果解释中包括了宙斯知道的信息而赫拉不知道的,那么赫拉将难以理解和消化。并且,宙斯不知道赫拉有哪些事是已经知道的,所以宙斯不一定能高效地把自己知道的一切让赫拉明白。

也许,最高效的解释不仅是找到共同可以理解的交集,也在于如何预测对方可能已经知道的信息。

回到正题,对于复杂模型的解释,人们普遍停留在找“可以共同理解”的交集,当然, 继续阅读复杂模型解释的几种方法(interpret model): 可解释,自解释,以及交互式AI的未来#2,第二弹