ICLR 2020论文精选:“好奇心”的本质探讨,元学习与增强学习(RL)的“好奇心”机制,好奇心算法搜索,智能体的适应力增强

与其说人类是智能“搜索”机,不如说人类是智能“贪婪”机— David 9
David最近在思考一个问题,表面上看所有智能问题都是“搜索”问题,包括今天我们讨论“好奇心”本质,也可以理解为对“好奇心”算法的搜索。
但是,人类仅仅是一台高级一点的“搜索机”吗?或者说除了“搜索”,“智能”(灵性)是否必须有一些其他重要属性比如“抽象能力”,“信息组织能力” ?换句话,仅仅用显式“搜索”构建的“智能”是不是“伪智能”?
事实上,今天我们探讨的这篇MIT在ICLR 2020的论文,就是这样一种“搜索”出来的“好奇心”。但是,这已经是当今一群聪明人可以设计的较好的“好奇心”机制了。
毫无疑问,好奇心是智能体主动探索外部环境,获取有用经验的驱动力。
在内部,MIT研究人员把“好奇心”设计为一种“代理回报”(proxy rewards)的机制:
来自:https://arxiv.org/pdf/2003.05325.pdf
在传统RL算法外部环境之间又架了一层“好奇心”模块,模块返回的\hat{r} 是RL算法真正训练使用的回报。(并不直接使用环境回报r )。
这样对于RL算法,回报不再是“傻乎乎”地锚定某个特定环境,而是可以适应多个环境。事实上该论文的实验就是针对多个RL环境游戏的,如Grid World:

继续阅读ICLR 2020论文精选:“好奇心”的本质探讨,元学习与增强学习(RL)的“好奇心”机制,好奇心算法搜索,智能体的适应力增强

AI界的集邮学?回眸ES,粒子群PSO,遗传(进化)算法,GA等无梯度优化方法

“盾从防御看是美的,矛则从射击的敏捷和力量看是美的”

—— 苏格拉底

实验物理学家卢瑟福说过:“所有科学要么是物理,要么是集邮” 。相较其他学科,物理学也许对宇宙大一统的解释有一定的优越性。如在研究半衰期过程中就会被一种大自然的神奇所折服(弱核力)。

然而“集邮”并不是没有意义。苏格拉底说过,“盾从防御看是美的,矛则从射击的敏捷和力量看是美的”。不能因为深度学习理论薄弱,就去否认深度网络的实际效用。收集大自然的“邮票”加以利用也许成就感不那么高,但它可能非常有效 ,甚至在某些角度不乏美感。

比如在我们AI机器学习领域就有这样一种“集邮”学:其囊括遗传算法进化策略算法(ES)粒子群算法(PSO),多数都是以模仿自然为依据,还有一个流行好听的称呼:无梯度优化算法(gradient-free,derivative-free)facebook开源的Nevergrad库也是来自这种优化方法)

这些“离经叛道”的优化算法,不像SVM极具数学根基,但在某些场合非常适用:

拿粒子群算法(PSO)来讲,如上图,是粒子群在平面上找到极小值的过程,其本质是模拟了群鸟飞行或群鱼相互协作的搜索过程:

其核心公式也是贯彻了相互协作的原则:

其中vi(t+1)是下一个时刻的粒子速度,它由三个因素决定:

继续阅读AI界的集邮学?回眸ES,粒子群PSO,遗传(进化)算法,GA等无梯度优化方法

CTC的直观理解(Connectionist Temporal Classification连接时序分类),单行文本时序分类识别的端到端方法

把基于概率的自动化叫做AI是否有些可笑? — David 9

原文:An Intuitive Explanation of Connectionist Temporal Classification

聊到CTC(Connectionist Temporal Classification),很多人的第一反应是ctc擅长单行验证码识别:

两组谷歌验证码示例

是的,ctc可以提高单行文本识别鲁棒性(不同长度不同位置 )。今天David 9分享的这篇文章用几个重点直观的见解把ctc讲的简洁易懂,所以在这里就和大家一起补一补ctc 。

首先ctc算不上一个框架,更像是连接在神经网络后的一个归纳字符连接性的操作

来自:https://towardsdatascience.com/intuitively-understanding-connectionist-temporal-classification-3797e43a86c

cnn提取图像像素特征,rnn提取图像时序特征,而ctc归纳字符间的连接特性。

那么CTC有什么好处?

因手写字符的随机性,人工可以标注字符出现的像素范围,但是太过麻烦,ctc可以告诉我们哪些像素范围对应的字符

手写字符的单行像素标注, 来自:https://towardsdatascience.com/intuitively-understanding-connectionist-temporal-classification-3797e43a86c

如上图标注“t”的位置出现t字符,标注o的区域出现o字符。 继续阅读CTC的直观理解(Connectionist Temporal Classification连接时序分类),单行文本时序分类识别的端到端方法