DeepRecommender:基于自编码器的协同过滤(Collaborative Filtering),英伟达论文选读及其pytorch实现

有时候,读读工程类的文章,虽然简单,但是能看到别人踩过的坑用过的tricks,也是挺有意思。NVIDIA不久前放出的协同过滤新标杆DeepRecommender Netfix 2009年的netflixprize竞赛数据为基准,使用基于自编码器协同过滤,准确率比普通模型都高。

netflixprize竞赛目标非常简单,预测一个用户对一部影片评分的可能值(Netflix要推荐用户最感兴趣的影片来赚钱,不是吗?)事实上,评价竞赛分数的loss函数也很简单,是一个均方误差:ri是真实评分yi是模型预测评分mi是一个外加的mask控制项,如果真实评分ri=0,那mi=0,否则mi就可以等于1. 继续阅读DeepRecommender:基于自编码器的协同过滤(Collaborative Filtering),英伟达论文选读及其pytorch实现

迈向强AI, OpenAI进化策略算法ES (Evolution Strategy)代替传统RL强化学习

一切高级智能的优化过程, 要有尽可能少的人为干预, 也许有一天人们会明白, 强AI的实现是人类放弃”自作聪明”的过程 — David 9

Deepmind拓展深度学习的边界, OpenAI似乎对强AI和强化学习更有执念, 前些时候的进化策略算法(Evolution Strategy,以下简称ES算法) 在10分钟内就能训练一个master级别的MuJoCo 3D行走模型:

来自: https://blog.openai.com/evolution-strategies/

着实给了Deepmind强化学习一个下马威.

ES算法摒弃了强化学习在行动Action域的惯性思维, 复兴了与遗传算法同是80年代的进化策略算法思路。达到了目前强化学习也能有实验结果. 先来看看ES和遗传算法的异同:

没错, 像上面指出的, ES算法和遗传算法的思路非常相似, 只是前者适用于连续空间, 后者更适用于离散空间.

那么ES算法RL强化学习又有什么差别呢 ? 继续阅读迈向强AI, OpenAI进化策略算法ES (Evolution Strategy)代替传统RL强化学习