复杂模型解释的几种方法(interpret model): 可解释,自解释,以及交互式AI的未来#2,第二弹

如果不存在至高的上帝,那么也不存在至高的解释,不论解释者做何种努力 — David 9

假想这样一个场景,世界上仅有两个至高的神(比如“宙斯”和“赫拉”),互相解释同一件事情。虽然宙斯和赫拉都是无所不知的神,但我们假设宙斯对赫拉并不是无所不知的(同样赫拉对宙斯也是):

那么,他们相互可以解释清楚同一件事情吗?

因为赫拉除了宙斯之外已经无所不知了,那么,宙斯向赫拉解释的过程就退化为:把自己对这件事所知道的信息传递给赫拉

如果宙斯需要解释的信息都是共同知道的信息,那这种信息传递较容易。但如果解释中包括了宙斯知道的信息而赫拉不知道的,那么赫拉将难以理解和消化。并且,宙斯不知道赫拉有哪些事是已经知道的,所以宙斯不一定能高效地把自己知道的一切让赫拉明白。

也许,最高效的解释不仅是找到共同可以理解的交集,也在于如何预测对方可能已经知道的信息。

回到正题,对于复杂模型的解释,人们普遍停留在找“可以共同理解”的交集,当然, 继续阅读复杂模型解释的几种方法(interpret model): 可解释,自解释,以及交互式AI的未来#2,第二弹

GPT3无疑是一个进步,但很多人抓错了重点:对伪常识,伪逻辑和因果推理未来的一些思考

注意力机制看似对符号化学习(或人类智能的产生)是“隔靴瘙痒”,但从另一面说,也可能是一个基石 — David 9

熟悉David读者知道我对真正的智能(或类人智能)的产生感兴趣,当今,普遍的共识是截然相反的两种路径(方式):

1. 自上而下。构造一个本身在语义和逻辑上就有意义的系统,在这个系统下构建各个组件,随着组件的趋于完备(完美),也就达到了类人等级的智能。

2. 自下而上。先从混沌的初级结构开始构建(类似神经网络的一层网络),慢慢构建复杂的结构,在上层慢慢“长”出意识(或智能)。

由于目前神经网络(深度网络)的浪潮,后一种声音占了多数。

但显然,David可以想象出神经网络风光不再的场景,比如到了某个阶段,人类矩阵算力(GPU)不再昂贵, 组合各种神经网络变得非常简单,同时人们又想要更多有意义的结果,那时,“拼装组合”成了主旋律,人们对神经网络内部结构已经不感兴趣。也可能,那时的神经网络已经可以自动“生长”,无需人去构建。就像我们以前在“谷歌的免训练网络”中谈到的:

来自:https://arxiv.org/abs/1906.04358

回到GPT3, David其实不赞同一些网友总结GPT3的意义。

是因为1750亿参数并使用了45TB数据吗?我相信以后还会有更多更大的网络出现。

是因为用更少的领域数据,解决对领域内有标签数据的过分依赖吗?论文在相关工作中指出,元学习(Metalearning)迁移学习都在这个方向上曾作出过努力。

仅仅因为用了较大网络达到较好(无监督)效果,就值得GPT3骄傲吗?我觉得也不是。

请读者细品一下论文的大标题:“Language Models are Few-Shot Learners

这告诉我们OpenAI团队的两点洞见继续阅读GPT3无疑是一个进步,但很多人抓错了重点:对伪常识,伪逻辑和因果推理未来的一些思考

“数据增强式”自监督的未来和下一个阶段,深入了解自监督学习#3

不存在纯粹的无监督,那些较“高明”的无监督往往需要对先验做“高明”的处理 — David 9

接着之前的自监督系列,先回顾一下david对自监督的广义概括:

自监督是在已有信息基础上,挖掘额外信息,并进一步强化和丰富已有信息的过程 — David 9

总的来说,“自监督”是有监督学习,并且是半监督的,之所以不直接叫做半监督,是因为它不是简单无监督和有监督拼凑(当然也有营销成分😉),它用各种“更高明的”(包含人类先验的)方式利用大量无标签的样本,自我强化和丰富已有的有标签样本模型。

这里的“更高明的”方法总结有两种:

1. 利用更复杂的(加入人类先验的)lossdavid之前谈到的InfoMax模型就是典型例子。

2. 利用大量“数据增强”方法训练模型。注意这也是加入人类先验的(数据增强方法不能随意选择)。

我们今天要谈的是第二种方法。即:“数据增强式”自监督。

下面是前阵子Google两篇曝光度较高的两篇文章,都用到了这种“数据增强式”自监督

...阅读更多...加入David9的星球群阅读所有文章:

加入David9的星球群,获得通行密码 , 阅读全文