业界 Archives | 第4页共7页 | David 9的博客 --- 不怕"过拟合"

回顾BERT优势与劣势：深入理解这些无监督怪兽，及其前景展望，GPT，BERT，VideoBERT

如果“你所能告诉我的，只是你想表达的十分之一”，那么“表达”和接受“表达”的效率，也许是智能重要组成之一 — David 9

我们知道目前的AI无法表达自己，甚至，连接受“表达”的能力也相当有限。在NLP（自然语言）领域比其他领域更滞后。从word2vec词向量到ELMo，再到2018年谷歌的BERT系列模型，深度神经网络在NLP领域中“半推半就”达到一个有共识的高度：

来自：https://www.analyticsvidhya.com/blog/2019/09/demystifying-bert-groundbreaking-nlp-framework/

即使经过这样一个漫长的过程，BERT系列模型还是需要在预定domain域上事先做大规模预训练，才能在下游任务上表现更好：

来自：https://towardsdatascience.com/a-review-of-bert-based-models-4ffdc0f15d58

“大规模预训练”，“更宽深层双向encoding”，“带MASK的无监督训练”，“注意力机制”，“fine-tuned模型”，对BERT有一些深入了解的朋友一定对以上这些词不陌生。是的这些是BERT训练要素。

但是BERT有效，是因为在目前大数据和算力的条件下，不得已只能使用这种方式超越前任算法。这种方式的好处很明显：

1. 多头的注意力机制和双向encoding让BERT的无监督训练更有效，并且使得BERT可以构造更宽的深度模型：

来自：https://towardsdatascience.com/deconstructing-bert-part-2-visualizing-the-inner-workings-of-attention-60a16d86b5c1

2. 把特定任务的模型fine-tune放到后面去做，增大整个模型的灵活性。如果你能拿到较好的预训练模型，甚至再用一个简单的logistic回归就能fine-tune出一个较好的任务模型。

3. BERT无监督(自监督)的预训练，给了其他连续型数据问题很多想象力。所谓连续型数据问题，指那些像语言，音频，视频等（如果任意删除其中一段，在语义上就显得不连贯）。这种数据结合BERT模型可以做一些有意思事情，如VideoBERT, 就是通过把字幕和视频拼接，作为一个新的连续型BERT模型（用来自动生成字幕）：继续阅读回顾BERT优势与劣势：深入理解这些无监督怪兽，及其前景展望，GPT，BERT，VideoBERT

探究“网红科学家”眼中的”智能“：Keras作者François Chollet谈AI，以及David的一些想法

如果你的思考足够抽象，并赋予抽象非凡的意义，AI很难赶上你 — David 9

最近看的Keras作者François Chollet访谈，David我也是他的粉丝，

如果说特朗普是twitter治国的，也许他就是twitter治AI的了，下面这推就表示了他对目前AI学界的深深担忧😁😁😁：

是的，大多数深度学习论文本质上借助的是人类先验和人类智能对数据集的理解。

这无疑引出了本质问题，这位“网红”科学家对智能的看法究竟如何？我在这里总结了6个重点供大家讨论，

1. 所谓“智能大爆发”可能存在吗？NO！François认为首先，我们不能孤立地看待“智能”这个东西，它绝不是孤立在天空中的城堡：

所有我们已知的智能（包括人类智能）都是和这个世界的环境密切交互的，“智能”这个东西更像是集市中的信息交换，他的进展有很多不确定性，一个小市场，外围也许还有多个大市场，周围的环境也复杂多变：

我们人类智能之所以到现在这个阶段，除了为了适应生存生产活动，还要与其它物种竞争，以及一些运气的成分，才让我们变成现在看到的这种“智能”。所以，上下文很重要。

如果说有“超人类的智能大爆发”，那么这个“智能”是如何以这么快的速度适应周围环境和人类以及其他物种竞争的？如果一下子变成超人智能，它又是如何像爱因斯坦那样寻找一个宏大的问题的答案？至少从David的直觉，我赞同François。我认为这种突破是缓慢的信息交互的产物，不是可以“爆发”产生的，但可以缓慢到达某个阶段。

2. 智能是线性增长的。这也许是François最著名的论断，David之前就听过。他的解释也很有意思，他不否认当一个产业兴起时，资源的分配是爆炸增长的，这就是我们在日常生活中的感觉（几十年前的互联网泡沫，工业革命，信息化革命，AI浪潮等等）。但是，科学本身的发展是线性的，下图是历年来物理学发展突破的评分图：

Data from Patrick Collison and Michael Nielsen

图中每10年的物理学发展程度，大都是平缓持平的，没有巨大波动。因此如果把人类总体的智慧做一个大智能体，继续阅读探究“网红科学家”眼中的”智能“：Keras作者François Chollet谈AI，以及David的一些想法

CVPR2019观察: 谷歌大脑的”自动数据增强”方法及其前景，David9划重点

如果你要帮助别人学习，你应该让他多犯错，还是让他少出错？— David 9

试想这样一个未来，所有的AI模型构建的范式都分为两部分：1. 从自然界自动收集所有有利于构建模型的信息数据，2. 自动构建一个端到端模型，处理某一任务。

如果上述两个智能体足够智能不断进化达到一个较高的智能水平，那么我们今天提到的自动数据增强（AutoAugment）也许是原始雏形。

虽然David认为模型本身就应该含有大量的信息不应该是外部“强加”给模型大量信息（人类的基因不正是这样？）。同时Google利用大量的机器、实验和工作发的这篇论文普通AI从业者想复制比较困难，但有几点有意思的地方David想指出一下，

1. 虽然自动数据增强的训练模型较难重现，但是google已经公布用于检测的自动数据增强方法，其代码我们可以直接拿来用：https://github.com/tensorflow/tpu/blob/master/models/official/detection/utils/autoaugment_utils.py

并且提供了不只一种增强数据策略，如下只是其中一种策略：

def policy_v1():
  """Autoaugment policy that was used in AutoAugment Detection Paper."""
  # Each tuple is an augmentation operation of the form
  # (operation, probability, magnitude). Each element in policy is a
  # sub-policy that will be applied sequentially on the image.
  policy = [
      [('TranslateX_BBox', 0.6, 4), ('Equalize', 0.8, 10)],
      [('TranslateY_Only_BBoxes', 0.2, 2), ('Cutout', 0.8, 8)],
      [('Sharpness', 0.0, 8), ('ShearX_BBox', 0.4, 0)],
      [('ShearY_BBox', 1.0, 2), ('TranslateY_Only_BBoxes', 0.6, 6)],
      [('Rotate_BBox', 0.6, 10), ('Color', 1.0, 6)],
      [('Color', 0.0, 0), ('ShearX_Only_BBoxes', 0.8, 4)],
      [('ShearY_Only_BBoxes', 0.8, 2), ('Flip_Only_BBoxes', 0.0, 10)],
      [('Equalize', 0.6, 10), ('TranslateX_BBox', 0.2, 2)],
      [('Color', 1.0, 10), ('TranslateY_Only_BBoxes', 0.4, 6)],
      [('Rotate_BBox', 0.8, 10), ('Contrast', 0.0, 10)],
      [('Cutout', 0.2, 2), ('Brightness', 0.8, 10)],
      [('Color', 1.0, 6), ('Equalize', 1.0, 2)],
      [('Cutout_Only_BBoxes', 0.4, 6), ('TranslateY_Only_BBoxes', 0.8, 2)],
      [('Color', 0.2, 8), ('Rotate_BBox', 0.8, 10)],
      [('Sharpness', 0.4, 4), ('TranslateY_Only_BBoxes', 0.0, 4)],
      [('Sharpness', 1.0, 4), ('SolarizeAdd', 0.4, 4)],
      [('Rotate_BBox', 1.0, 8), ('Sharpness', 0.2, 8)],
      [('ShearY_BBox', 0.6, 10), ('Equalize_Only_BBoxes', 0.6, 8)],
      [('ShearX_BBox', 0.2, 6), ('TranslateY_Only_BBoxes', 0.2, 10)],
      [('SolarizeAdd', 0.6, 8), ('Brightness', 0.8, 10)],
  ]
  return policy

2. 强化学习和GAN哪个更好？ 继续阅读CVPR2019观察: 谷歌大脑的”自动数据增强”方法及其前景，David9划重点

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30