David9的ICML2019观察:Tesla自动驾驶建模是如何搞定多任务学习的?实时多任务,autopilot自动导航

人类在做其他看似不相关的事情时,会给手头的任务带来灵感; 模型也应如此,让它在训练时做其他任务,会对它的实际预测带来好处(正则约束)  — David 9

多任务模型David不是第一次讲了,但是之前涉及的是强化学习自然语言领域。视觉领域,多任务学习就更有意思了。自动驾驶是该领域的常见应用,不但要求准确率99%+极低延时,而且是一个开阔的“无限游戏”,正如特斯拉AI负责人Andrej Karpathy在ICML2019发言上提到的,其复杂性是多方面的,

遇到的车况可能很复杂:

来自:Andrej Karpathy的演讲《Multi-Task Learning in the Wilderness》,见文末参考文献

摄像头的视觉角度也很复杂(8个方向):

来自:Andrej Karpathy的演讲《Multi-Task Learning in the Wilderness》,见参考文献

更复杂的是,自动驾驶天生就是多任务的:

来自:Andrej Karpathy的演讲《Multi-Task Learning in the Wilderness》,见参考文献

在你开车时,你的眼睛和大脑要同时分析移动的车辆,静态的路灯,斑马线,路标,警示牌,等等。。。甚至loss函数的设计都是复杂的,因为一些任务就是比一些任务更重要(我们要重点关注突然闯红灯的行人)

要适应如此复杂多变的环境并且要求实时导航,如何去建模真的很有挑战性。首先,你不可能对每个任务都建一个模型

来自:Andrej Karpathy的演讲《Multi-Task Learning in the Wilderness》,见参考文献

这样哪怕可行开销也太大(除非你想多送用户几块gpu或硬件资源)。另一个极端是所有任务都合并为一个模型继续阅读David9的ICML2019观察:Tesla自动驾驶建模是如何搞定多任务学习的?实时多任务,autopilot自动导航

一项无法忽视的无监督技术:OpenAI任务通用模型GPT,GPT-2,MuseNet,Attention 模型,#David 无监督系列

看似庞大复杂的工程都来自一个简单的愿望 — David 9

人一生的行为往往由一个简单(但看似虚无)的意义驱动,而机器模型的行为由很多具体任务(实际的loss函数)驱动。于是,有的人为了“爱”可以苦费心思建成辉宏的泰姬陵 ; 而深度学习模型在不同任务间切换都如此困难。

幸运的是,多数人的愿望是AI朝着更通用(非具体)的方向发展。所以我们可期待更通用AI模型的出现。甚至David期待将来“域”通用模型的出现,这里的domain指的至少是人体五官胜任的所有任务(视觉域语言域音频域触觉域嗅觉域等

拉回现实,OpenAI在语言域GPT(GPT-2音频域MuseNet模型已经取得了广泛关注。对于通用语言模型的探索,GPT早已不是先例:

从汲取上下文关系的CoVe词向量(有监督,任务单一),到无监督预训练并且多任务通用的GPT-2 单模型“通用”的能力正在不断增强。

继续阅读一项无法忽视的无监督技术:OpenAI任务通用模型GPT,GPT-2,MuseNet,Attention 模型,#David 无监督系列

AR版“神笔马良”:从单张2D图片建立3D人物运动模型,华盛顿大学与Facebook 3D重建 cvpr2019

无论它被你以何种方式唤醒,你只是释放了已有的想象力 — David 9

从一张普通的2D图片建立一个活生生的3D人物运动模型,或许是曾经神笔马良擅长的事。现在,在AR的人物动画3D重建领域似乎也不足为奇:

来自:https://grail.cs.washington.edu/projects/wakeup/

华盛顿大学与Facebook的研究人员已经公布了他们的这套图像人物“唤醒”方法。注意:这套方法仅限于帮助“人物”走出屏幕,不适用于动物或交通工具等等。

当然,甚至是毕加索的四维抽象人物也是适用的:

来自:https://grail.cs.washington.edu/projects/wakeup/

背后的原理这里David 9带大家理一下,首先总体框架如下:

来自:https://grail.cs.washington.edu/projects/wakeup/

论文核心贡献集中在上图的中间红色区域,所以简单起见我们可以先看一头一尾

继续阅读AR版“神笔马良”:从单张2D图片建立3D人物运动模型,华盛顿大学与Facebook 3D重建 cvpr2019