在“扎根”与“开拓”之间权衡，再聊聊现阶段的强化学习Reinforcement learning

从环境中获得显式(或隐式)的回报(奖赏)信息，强化学习(RL)是AI算法中最接近人真实生活的算法。正是由于这一点，强化学习可以简单到玩一个街机小游戏，也可以复杂到模拟并解释人类某个社会问题。此外，强化学习的tradeoff可以说是包罗万象，曾经我们聊过RL中对经验抽样的艺术，RL需要用恰当的方式从之前的路径经验中获得信息：

你可能只试了两个结果，但你可能已经有了四个路径。来自：https://distill.pub/2019/paths-perspective-on-value-learning/

但是，岂止是权衡抽样。RL还要考虑回报是否稀疏(少经验少信息)的问题；angent(智能体)之间“合作”还是“竞争”的权衡went问题；还有RL训练低效，需要可迁移的经验和提高抽样效率的问题。只要是一个智能体面对开放复杂环境可以遇到的问题，强化学习都可能遇到。更宽泛地，还包括我们今天要聊的“扎根”和“开拓”之间的权衡（David这样翻译Exploitation vs Exploration）。

“Exploitation vs Exploration”是把握强化学习的一个重要角度。

假如你要选择今天午饭在哪吃，你是会选择以前去过的餐厅，还是去未知的新餐厅试试？这就是典型的“扎根”和“开拓”的困境：

来自：https://lilianweng.github.io/lil-log/2018/01/23/the-multi-armed-bandit-problem-and-its-solutions.html#exploitation-vs-exploration

事实上如果经验足够丰富，“开拓”就变得不必要了，但是通常情况下，开放的外部环境比我们想象的大的多，所以，“开拓”的方法，以及在什么时间点选择“开拓”是必须考虑的。

并且，David需要强调的是，在实际算法和应用中，

...阅读更多...加入David9的星球群阅读所有文章: Enter your password

加入David9的星球群，获得通行密码 , 阅读全文

The following two tabs change content below.
Bio
Latest Posts

David 9

邮箱：yanchao727@gmail.com 微信: david9ml

Latest posts by David 9 (see all)

修订特征已经变得切实可行， “特征矫正工程”是否会成为潮流？ - 27 3 月, 2024

量子计算系列#2 : 量子机器学习与量子深度学习补充资料，QML，QeML，QaML - 29 2 月, 2024

“现象意识”#2：用白盒的视角研究意识和大脑，会是什么景象？微意识，主体感，超心智，意识中层理论 - 16 2 月, 2024

发布者

David 9

邮箱：yanchao727@gmail.com 微信: david9ml 查看David 9的所有文章

发布于 7 12 月, 202026 1 月, 2021作者 David 9分类前沿、增强学习

发表回复取消回复
您的邮箱地址不会被公开。必填项已用 * 标注
评论 *
显示名称 *

邮箱 *

网站

Δ

文章导航

上篇文章：复杂模型解释的几种方法(interpret model): 可解释，自解释，以及交互式AI的未来#2，第二弹
下篇文章：概率式编程语言(probabilistic programming languages(PPLs))的未来探讨

自豪地采用WordPress