GAN Archives | David 9的博客 --- 不怕"过拟合"

在噪声中“生长”：扩散生成模型(Diffusion Models)，score-based models，基于评分的生成模型

一切智能体都在“噪声”中生长，甚至依赖“噪声”滋养，它们不是上帝，不可能在虚无中创造—— David 9

1970年，心理学家Richard Warren和他的同事研究了音素恢复在人类语言中的案例。

以“legislatures”这个单词的完整发音为例，是下图第一行的音频，如果在这段音频中切离一部分音频，替换成毫无声音的静音(第二行)音频，或替换成宽音域的噪声(第三行)音频，人类恢复声音的能力是不一样的。对于第三行的宽域噪声，人们可以很好地脑补完整的“legislatures”单词，而对于完全的静音，人们则难以“脑补”整个单词。

这从侧面展示噪声对智能体的作用往往被低估了，智能体善于从噪声中过滤和还原信息，而不是从虚无中。智能体善于快速地“做选择题”。

现在，借助郎之万动力学采样法，扩散生成模型(Diffusion Models) 已经可以生成高像素的人造图像，其多样性也超越了传统GAN。

其核心思想正是从噪声中一步一步还原出新图像：

而与我们继续阅读在噪声中“生长”：扩散生成模型(Diffusion Models)，score-based models，基于评分的生成模型

CVPR2019观察: 谷歌大脑的”自动数据增强”方法及其前景，David9划重点

如果你要帮助别人学习，你应该让他多犯错，还是让他少出错？— David 9

试想这样一个未来，所有的AI模型构建的范式都分为两部分：1. 从自然界自动收集所有有利于构建模型的信息数据，2. 自动构建一个端到端模型，处理某一任务。

如果上述两个智能体足够智能不断进化达到一个较高的智能水平，那么我们今天提到的自动数据增强（AutoAugment）也许是原始雏形。

虽然David认为模型本身就应该含有大量的信息不应该是外部“强加”给模型大量信息（人类的基因不正是这样？）。同时Google利用大量的机器、实验和工作发的这篇论文普通AI从业者想复制比较困难，但有几点有意思的地方David想指出一下，

1. 虽然自动数据增强的训练模型较难重现，但是google已经公布用于检测的自动数据增强方法，其代码我们可以直接拿来用：https://github.com/tensorflow/tpu/blob/master/models/official/detection/utils/autoaugment_utils.py

并且提供了不只一种增强数据策略，如下只是其中一种策略：

def policy_v1():
  """Autoaugment policy that was used in AutoAugment Detection Paper."""
  # Each tuple is an augmentation operation of the form
  # (operation, probability, magnitude). Each element in policy is a
  # sub-policy that will be applied sequentially on the image.
  policy = [
      [('TranslateX_BBox', 0.6, 4), ('Equalize', 0.8, 10)],
      [('TranslateY_Only_BBoxes', 0.2, 2), ('Cutout', 0.8, 8)],
      [('Sharpness', 0.0, 8), ('ShearX_BBox', 0.4, 0)],
      [('ShearY_BBox', 1.0, 2), ('TranslateY_Only_BBoxes', 0.6, 6)],
      [('Rotate_BBox', 0.6, 10), ('Color', 1.0, 6)],
      [('Color', 0.0, 0), ('ShearX_Only_BBoxes', 0.8, 4)],
      [('ShearY_Only_BBoxes', 0.8, 2), ('Flip_Only_BBoxes', 0.0, 10)],
      [('Equalize', 0.6, 10), ('TranslateX_BBox', 0.2, 2)],
      [('Color', 1.0, 10), ('TranslateY_Only_BBoxes', 0.4, 6)],
      [('Rotate_BBox', 0.8, 10), ('Contrast', 0.0, 10)],
      [('Cutout', 0.2, 2), ('Brightness', 0.8, 10)],
      [('Color', 1.0, 6), ('Equalize', 1.0, 2)],
      [('Cutout_Only_BBoxes', 0.4, 6), ('TranslateY_Only_BBoxes', 0.8, 2)],
      [('Color', 0.2, 8), ('Rotate_BBox', 0.8, 10)],
      [('Sharpness', 0.4, 4), ('TranslateY_Only_BBoxes', 0.0, 4)],
      [('Sharpness', 1.0, 4), ('SolarizeAdd', 0.4, 4)],
      [('Rotate_BBox', 1.0, 8), ('Sharpness', 0.2, 8)],
      [('ShearY_BBox', 0.6, 10), ('Equalize_Only_BBoxes', 0.6, 8)],
      [('ShearX_BBox', 0.2, 6), ('TranslateY_Only_BBoxes', 0.2, 10)],
      [('SolarizeAdd', 0.6, 8), ('Brightness', 0.8, 10)],
  ]
  return policy

2. 强化学习和GAN哪个更好？ 继续阅读CVPR2019观察: 谷歌大脑的”自动数据增强”方法及其前景，David9划重点

更自由的GAN图像联想：无监督跨类的图像转换模型FUNIT，英伟达&&康奈尔大学

想要释放模型的威力，可以尝试解放其输入的自由度，要知道，婴儿对外界各种形式信息从来都是来着不拒 — David 9

如果你没看到过老虎坐着的样子，但是你看到过其他小动物坐着的样子，你很自然地联想到老虎坐着应该是什么样子（如上封面图片所示）。

然而要让模型跨类转换图像，就没有那么容易，英伟达&&康奈尔大学使用的FUNIT模型的图像生成任务如下：

随意抽取一张原内容图片（Content image）, 同时给出你想要转换到的目标类别（Target class），最后，需要由模型把原图片转换成目标类别的独特属性。如果你有一张小狗的图片，模型可以为你联想这只小狗“进化”成狮子会是什么样？继续阅读更自由的GAN图像联想：无监督跨类的图像转换模型FUNIT，英伟达&&康奈尔大学

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30