CVPR2018精选#1: 无监督且多态的图片样式转换技术,康奈尔大学与英伟达新作MUNIT及其源码

所谓无监督学习,只是人类加入了约束和先验逻辑的无监督 — David 9

更新:有同学发现这篇文章可能并没有在CVPR2018最终录取名单(只是投稿),最终录取名单参考可以看下面链接:

https://github.com/amusi/daily-paper-computer-vision/blob/master/2018/cvpr2018-paper-list.csv

最近图片生成领域正刮着一股“无监督”之风,David 9今天讲Cornell大学与英伟达的新作,正是使无监督可以生成“多态”图片的技术,论文名:Multimodal Unsupervised Image-to-Image Translation (MUNIT)。

这股“无监督”之风的刮起,只是因为我们发现用GAN结合一些人为约束和先验逻辑,训练时无需监督图片配对,直接在domain1domain2中随机抽一些图片训练,即可得到样式转换模型。这些约束和先验有许多做法,可以迫使样式转换模型(从domain1到domain2)保留domain1的一些语义特征;也可以像CycleGAN的循环一致约束,如果一张图片x从domain1转换到domain2变为y,那么把y再从domain2转换回domain1变为x2时,x应该和x2非常相似和一致:

来自CycleGAN:https://arxiv.org/pdf/1703.10593.pdf

而这些无监督方法有一个缺陷:不能生成多样(多态)的图片MUNIT正是为了解决这一问题提出的,因为目前类似BicycleGAN的多态图片生成方法都需要配对监督学习。

MUNIT为此做了一些约束和假设,如,假设图片有两部分信息:内容c样式s,另外,图片样式转换时domain1和domain2是共享内容c的信息空间的:

MUNIT的自编码器

生成图片时,把同一个内容c和不同样式s组合并编码输出,就可生成多态的图片:

来自:https://arxiv.org/pdf/1804.04732.pdf

实际训练时,我们需要两个自编码器,分别对应domain1和domain2: 继续阅读CVPR2018精选#1: 无监督且多态的图片样式转换技术,康奈尔大学与英伟达新作MUNIT及其源码

ICLR2018抢先看!深挖对抗训练:提高模型预测分布的鲁棒性, Wasserstein鲁棒更新方法WRM,以及Earth Mover’s Distance

虽然ICLR2018将在今年5月召开,但是双盲评审已经如火如荼。目前评审结果排位第一的论文试图解决神经网络在预测分布上缺乏鲁棒性的问题。

我们都知道神经网络和人一样也有判断“盲点”。早在2015年Ian Goodfellow 就提出了攻击神经网络的简单方式,把cost函数 J(θ, x, y)输入图片x求导,得到一个对神经网络来说loss下降最快的干扰噪声:

来自:https://arxiv.org/pdf/1412.6572.pdf

一旦加入这个细微噪声(乘以0.007),图片的分错率就达到了99.3% !

这种生成对抗样本的攻击方法被称为FGMfast-gradient method快速梯度法),当然还有许多攻击方法, 下面是对数字8的测试攻击样例:

有了攻击方法我们就能增加神经网络的鲁棒性, 那么FGM是加强模型鲁棒性的最好参考吗?

该论文的答案是:NO !

论文提出了Wasserstein鲁棒更新方法WRM,文章指出,通过WRM训练出的模型有更鲁棒的训练边界,下面是David 9最喜欢的论文实验图:

来自:https://openreview.net/pdf?id=Hk6kPgZA-

杰出的论文不仅应该有实用的方法,更应该有让人豁然开朗的理论,不是吗?

上图Figure 1是一个研究分类边界的人工实验,蓝色的样本点红色的样本点是两类均匀样本,因为蓝色样本比红色样本多得多,所以分类边界倾向于向“外”推继续阅读ICLR2018抢先看!深挖对抗训练:提高模型预测分布的鲁棒性, Wasserstein鲁棒更新方法WRM,以及Earth Mover’s Distance

Facebook渐变神经网络: 通过任意指定属性,操纵生成图像,NIPS2017论文选读1

我们对信息过滤的本质知之甚少 — David 9

还记得我们在GAN大盘点中聊到的infoGAN吗?通过控制隐信息c可以生成特定条件的图像(倾斜更高,宽度更大):

来自: https://arxiv.org/pdf/1606.03657.pdf

今年Facebook在NIPS2017上发表的Fader Networks(渐变网络)更近一步,对于更抽象的特征也可以进行条件生成

来自:https://arxiv.org/pdf/1706.00409.pdf

如上图,“年轻”,“苍老”,“男性”,“女性”,“是否戴墨镜”,都是可以在生成器生成阶段任意指定。

但是有没有注意到上图demo中,头发的样子始终是不变的,看来Facebook还没有很好地解决头发生成的问题?男性和女性的头发样式明显应该不同,年轻和年老时的头发样式和色泽肯定也是不同的。 继续阅读Facebook渐变神经网络: 通过任意指定属性,操纵生成图像,NIPS2017论文选读1

深度增长网络: 构建稳定,高质量,多样的GAN对抗模型,英伟达论文选读2

GAN凝结了人们对”创作”本质的看法 — David 9

虽然ICLR 2018 要明年5月举办, 一些企业巨头已经摩拳擦掌,前不久,英伟达正在审阅的论文引起了大家注意,David 9觉得很有意思。论文用深度增长的网络构建、并生成稳定,高质量,多样的GAN对抗样本图片 :

来自:https://www.youtube.com/watch?v=XOxxPcy5Gr4&feature=youtu.be

上图demo是深度增长网络GAN生成的明星样本,清晰度和质量堪称惊艳。论文打破了神经网络在训练过程中“架构不变”的惯性思维。为了更好地“临摹”高清的明星脸谱,训练过程中,先从“粗略模糊”地“勾勒”开始对抗学习: 继续阅读深度增长网络: 构建稳定,高质量,多样的GAN对抗模型,英伟达论文选读2

独家 | GAN大盘点,聊聊这些年的生成对抗网络 : LSGAN, WGAN, CGAN, infoGAN, EBGAN, BEGAN, VAE

训练”稳定”,样本的”多样性”和”清晰度”似乎是GAN的 3大指标 — David 9

VAE与GAN

聊到随机样本生成, 不得不提VAEGAN, VAE用KL-divergence和encoder-decoder的方式逼近真实分布. 但这些年GAN因其”端到端”灵活性和隐式的目标函数得到广泛青睐. 而且, GAN更倾向于生成清晰的图像:

VAE与GAN生成对比

GAN在10次Epoch后就可以生成较清晰的样本, 而VAE的生成样本依旧比较模糊. 所以GAN大盘点前, 我们先比较一下VAE与GAN的结构差别:

VAE与GAN结构比较

VAE训练完全依靠一个假设的loss函数和KL-divergence逼近真实分布:

GAN则没有假设单个loss函数, 而是让判别器D生成器G之间进行一种零和博弈, 继续阅读独家 | GAN大盘点,聊聊这些年的生成对抗网络 : LSGAN, WGAN, CGAN, infoGAN, EBGAN, BEGAN, VAE

CVPR 2017论文精选#1 用模拟+非监督对抗生成图片的增强方法进行学习(Best paper award 最佳论文奖)

人类的想象力似乎是天生的, 而现今计算机的”想象力”来自”数据增强”技术. — David 9

这届CVPR上, 苹果为博得AI界眼球, 竟然拿到了最佳论文 !  也许这篇论文没有什么深远意义,也许只能反映学术被业界商界渗透的厉害,也许有更好的文章应该拿到最佳论文。

这又何妨, 历史的齿轮从来不会倒退, David 9看到的趋势是, 人类越来越擅长赋予计算机”想象力”, 以GAN为辅助的”数据增强”技术是开始, 但绝不是终点 !

言归正传, 来剖析这篇论文, 首先,这篇文章的目标非常清晰,就是用非监督训练集,训练一个“图片优化器”(refiner),用来优化人工模拟图片,使得这一模拟图片更像真实图片,并且具有真实图片的独特属性:

如上图,人工模拟的伪造图片(Synthetic)经过优化器Refiner变得与非监督集合(第一行的3张图片)非常相似,极大的增强了模拟图片的真实性。 继续阅读CVPR 2017论文精选#1 用模拟+非监督对抗生成图片的增强方法进行学习(Best paper award 最佳论文奖)

#16 那些没被玩坏的GAN—用条件对抗网络实现”图片到图片”的通用风格转换

AI的进步是不断为机器赋能: “深蓝”时代机器有了暴力搜索能力, “数据”时代有了依靠数据建模的能力, 甚至用GAN自动寻找目标函数.  下一个时代, 会不会是一个数据和模型泛滥, 机器自我寻找数据和创造模型的时代 ? — David 9

之前伯克利人工智能研究实验室(Berkeley Artificial Intelligence Research (BAIR) Lab)在Arxiv上放出的论文: Image-to-Image Translation with Conditional Adversarial Networks , 又把图片风格转换玩了一把:

来自: https://github.com/junyanz/pytorch-CycleGAN-and-pix2pix
图片到图片风格转换示例—马匹变斑马 来自: https://github.com/junyanz/pytorch-CycleGAN-and-pix2pix

如今, 想把GAN(生成对抗网络)训练出来并且不玩坏, 已经很了不起, 而这篇文章提出通用的框架用于”图片到图片”的风格转换.  加之投稿即将举办的cvpr 2017 , 又出自伯克利之手, 引来了不少目光.

条件对抗网络cGAN进行图片风格转换已经不是新鲜事, 继续阅读#16 那些没被玩坏的GAN—用条件对抗网络实现”图片到图片”的通用风格转换