独家 | GAN大盘点,聊聊这些年的生成对抗网络 : LSGAN, WGAN, CGAN, infoGAN, EBGAN, BEGAN, VAE

训练”稳定”,样本的”多样性”和”清晰度”似乎是GAN的 3大指标 — David 9

VAE与GAN

聊到随机样本生成, 不得不提VAEGAN, VAE用KL-divergence和encoder-decoder的方式逼近真实分布. 但这些年GAN因其”端到端”灵活性和隐式的目标函数得到广泛青睐. 而且, GAN更倾向于生成清晰的图像:

VAE与GAN生成对比

GAN在10次Epoch后就可以生成较清晰的样本, 而VAE的生成样本依旧比较模糊. 所以GAN大盘点前, 我们先比较一下VAE与GAN的结构差别:

VAE与GAN结构比较

VAE训练完全依靠一个假设的loss函数和KL-divergence逼近真实分布:

GAN则没有假设单个loss函数, 而是让判别器D生成器G之间进行一种零和博弈, 继续阅读独家 | GAN大盘点,聊聊这些年的生成对抗网络 : LSGAN, WGAN, CGAN, infoGAN, EBGAN, BEGAN, VAE

IJCAI 2017精选之”BabelNet”: WordNet与维基百科的混血儿, 大型国际化语义关系网

Prominent Paper Award (卓越论文奖) 是AIJ期刊评选出的六年内具有杰出影响力的论文. 今年, BabelNet当选该奖, BabelNet新的在线版更是令人影响深刻:

如上搜索”自由经济“, BabelNet不仅仅会给出”市场经济“, “市场力量“等WordNet语义聚类. 还会给出语义关系:

即, “市场经济“是一个”经济 概念 “, 是”市场“的一部分, 是一种”资本主义“. 继续阅读IJCAI 2017精选之”BabelNet”: WordNet与维基百科的混血儿, 大型国际化语义关系网

8 个很棒的机器学习小抄,速查表及其解释: Machine Learning Cheat Sheets !

这期David 9给各位初学者推荐8个很棒的机器学习小抄,速查表以及我的理解,希望各位刚入坑的小伙伴能有一个总览性的理解,加速你的学习迭代:

1.  SCIKIT-LEARN 算法导览

分类只要判别类别标签,回归还要预测具体值,特征降维要找到有用的那些维度,聚类是要给未知总集区分类别,初学者除了知道以上这些问题大类, SCIKIT-LEARN 算法导览还提供一些具体的选择细节。 继续阅读8 个很棒的机器学习小抄,速查表及其解释: Machine Learning Cheat Sheets !

KDD 2017精选#1 用”模仿和类比”挖掘加速创新 , GRU循环神经网络新用法(Best paper award 最佳论文奖)

An essential [of an inventor] is a logical mind that sees analogies. — Thomas Edison

很难想象如果所有创新工作交给AI去做, 人类存在的意义是什么?

今年KDD2017最佳论文(Accelerating Innovation Through Analogy Mining) 向这个方向迈进了一步. 作者试图从庞大的专利和文献库中, 挑选出可以激发发明者灵感的想法, 呈现给发明者(USPTO上就有900万多的专利)

如对于一个带电池的手机壳的初始idea:

来自: https://arxiv.org/pdf/1706.05585.pdf

通过”模仿和类别“挖掘, 模型可以搜索并提供下面idea的提示, 呈现给发明者:

上图是一个Flash充电时的卡扣装置, 和一个自带电源的USB插座, 都是对比模仿初始idea从庞大文献中找出的两个类似idea.

最后, 一个发明人看到以上这些启发和提示, 发明出了以下产品:

来自: https://arxiv.org/pdf/1706.05585.pdf

一个履带式的发电器, 戴在身上, 人体移动时, 就可以发电蓄电. 可见, 模型做出的前两个发明提示对发明者有一定的帮助. (模型给出了不完全相似但是很相关的启发) 继续阅读KDD 2017精选#1 用”模仿和类比”挖掘加速创新 , GRU循环神经网络新用法(Best paper award 最佳论文奖)

ICML 2017论文精选#2 用”策略草稿”进行模块化的多任务增强学习

人类日常行为中自觉或不自觉地总结抽象的”套路”, 以便将来在相同的情况下使用.  分层的增强学习正是研究了在较高的抽象任务中, 应该如何看待以前总结的”套路”, 并且如何在较低层的行为中使用它们. — David 9

正如我们之前提到过, 深度神经网络的迅速发展, 不会阻碍类似增强学习这样的高层学习框架发展, 而是会成为高层框架的重要底层支撑.

今年ICML最佳论文提名中的一篇(Modular Multitask Reinforcement Learning with Policy Sketches), 正是属于分层增强学习: 用”策略草稿“进行模块化的多任务增强学习.

说的通俗一点, 就是教会神经网络学习在各个不同的任务中总结通用的”套路”(或者说策略草稿,行为序列):

来自: https://arxiv.org/pdf/1611.01796.pdf

上图左右两图, 分别代表两个高层任务(“制作木板”(make planks) 和 “制作木棍”(make sticks)). 事实上, 这两个高层任务的完成, 都需要一个子策略π1的必要条件, 即  : 我们需要首先拿到木材 ! 继续阅读ICML 2017论文精选#2 用”策略草稿”进行模块化的多任务增强学习

CVPR 2017论文精选#1 用模拟+非监督对抗生成图片的增强方法进行学习(Best paper award 最佳论文奖)

人类的想象力似乎是天生的, 而现今计算机的”想象力”来自”数据增强”技术. — David 9

这届CVPR上, 苹果为博得AI界眼球, 竟然拿到了最佳论文 !  也许这篇论文没有什么深远意义,也许只能反映学术被业界商界渗透的厉害,也许有更好的文章应该拿到最佳论文。

这又何妨, 历史的齿轮从来不会倒退, David 9看到的趋势是, 人类越来越擅长赋予计算机”想象力”, 以GAN为辅助的”数据增强”技术是开始, 但绝不是终点 !

言归正传, 来剖析这篇论文, 首先,这篇文章的目标非常清晰,就是用非监督训练集,训练一个“图片优化器”(refiner),用来优化人工模拟图片,使得这一模拟图片更像真实图片,并且具有真实图片的独特属性:

如上图,人工模拟的伪造图片(Synthetic)经过优化器Refiner变得与非监督集合(第一行的3张图片)非常相似,极大的增强了模拟图片的真实性。 继续阅读CVPR 2017论文精选#1 用模拟+非监督对抗生成图片的增强方法进行学习(Best paper award 最佳论文奖)

机器视觉 目标检测补习贴之YOLO实时检测, You only look once

机器视觉是一场科学家与像素之间的游戏 — David 9

上一期,我们已经介绍了R-CNN系列目标检测方法(R-CNN, Fast R-CNN, Faster R-CNN)。事实上,R-CNN系列算法看图片做目标检测,都是需要“看两眼”的. 即,第一眼 做 “region proposals”获得所有候选目标框,第二眼 对所有候选框做“Box Classifier候选框分类”才能完成目标检测:

事实上“第一眼”是挺费时间的,可否看一眼就能得到最后的目标检测结果?达到实时检测的可能? 答案是肯定的,这也是我们要讲YOLO的由来 — You only look once !

YOLO能够做到在输出中同时包含图片bounding box(检测框)的分类信息位置信息:  继续阅读机器视觉 目标检测补习贴之YOLO实时检测, You only look once