David 9的博客 --- 不怕"过拟合"

回顾BERT优势与劣势：深入理解这些无监督怪兽，及其前景展望，GPT，BERT，VideoBERT

如果“你所能告诉我的，只是你想表达的十分之一”，那么“表达”和接受“表达”的效率，也许是智能重要组成之一 — David 9

我们知道目前的AI无法表达自己，甚至，连接受“表达”的能力也相当有限。在NLP（自然语言）领域比其他领域更滞后。从word2vec词向量到ELMo，再到2018年谷歌的BERT系列模型，深度神经网络在NLP领域中“半推半就”达到一个有共识的高度：

来自：https://www.analyticsvidhya.com/blog/2019/09/demystifying-bert-groundbreaking-nlp-framework/

即使经过这样一个漫长的过程，BERT系列模型还是需要在预定domain域上事先做大规模预训练，才能在下游任务上表现更好：

来自：https://towardsdatascience.com/a-review-of-bert-based-models-4ffdc0f15d58

“大规模预训练”，“更宽深层双向encoding”，“带MASK的无监督训练”，“注意力机制”，“fine-tuned模型”，对BERT有一些深入了解的朋友一定对以上这些词不陌生。是的这些是BERT训练要素。

但是BERT有效，是因为在目前大数据和算力的条件下，不得已只能使用这种方式超越前任算法。这种方式的好处很明显：

1. 多头的注意力机制和双向encoding让BERT的无监督训练更有效，并且使得BERT可以构造更宽的深度模型：

来自：https://towardsdatascience.com/deconstructing-bert-part-2-visualizing-the-inner-workings-of-attention-60a16d86b5c1

2. 把特定任务的模型fine-tune放到后面去做，增大整个模型的灵活性。如果你能拿到较好的预训练模型，甚至再用一个简单的logistic回归就能fine-tune出一个较好的任务模型。

3. BERT无监督(自监督)的预训练，给了其他连续型数据问题很多想象力。所谓连续型数据问题，指那些像语言，音频，视频等（如果任意删除其中一段，在语义上就显得不连贯）。这种数据结合BERT模型可以做一些有意思事情，如VideoBERT, 就是通过把字幕和视频拼接，作为一个新的连续型BERT模型（用来自动生成字幕）：继续阅读回顾BERT优势与劣势：深入理解这些无监督怪兽，及其前景展望，GPT，BERT，VideoBERT

探究“网红科学家”眼中的”智能“：Keras作者François Chollet谈AI，以及David的一些想法

如果你的思考足够抽象，并赋予抽象非凡的意义，AI很难赶上你 — David 9

最近看的Keras作者François Chollet访谈，David我也是他的粉丝，

如果说特朗普是twitter治国的，也许他就是twitter治AI的了，下面这推就表示了他对目前AI学界的深深担忧😁😁😁：

是的，大多数深度学习论文本质上借助的是人类先验和人类智能对数据集的理解。

这无疑引出了本质问题，这位“网红”科学家对智能的看法究竟如何？我在这里总结了6个重点供大家讨论，

1. 所谓“智能大爆发”可能存在吗？NO！François认为首先，我们不能孤立地看待“智能”这个东西，它绝不是孤立在天空中的城堡：

所有我们已知的智能（包括人类智能）都是和这个世界的环境密切交互的，“智能”这个东西更像是集市中的信息交换，他的进展有很多不确定性，一个小市场，外围也许还有多个大市场，周围的环境也复杂多变：

我们人类智能之所以到现在这个阶段，除了为了适应生存生产活动，还要与其它物种竞争，以及一些运气的成分，才让我们变成现在看到的这种“智能”。所以，上下文很重要。

如果说有“超人类的智能大爆发”，那么这个“智能”是如何以这么快的速度适应周围环境和人类以及其他物种竞争的？如果一下子变成超人智能，它又是如何像爱因斯坦那样寻找一个宏大的问题的答案？至少从David的直觉，我赞同François。我认为这种突破是缓慢的信息交互的产物，不是可以“爆发”产生的，但可以缓慢到达某个阶段。

2. 智能是线性增长的。这也许是François最著名的论断，David之前就听过。他的解释也很有意思，他不否认当一个产业兴起时，资源的分配是爆炸增长的，这就是我们在日常生活中的感觉（几十年前的互联网泡沫，工业革命，信息化革命，AI浪潮等等）。但是，科学本身的发展是线性的，下图是历年来物理学发展突破的评分图：

Data from Patrick Collison and Michael Nielsen

图中每10年的物理学发展程度，大都是平缓持平的，没有巨大波动。因此如果把人类总体的智慧做一个大智能体，继续阅读探究“网红科学家”眼中的”智能“：Keras作者François Chollet谈AI，以及David的一些想法

在自己专业领域，如何快速成(jia)为(zhuang)一名数据科学家? David 9的一些方法，#入门数据科学，＃数据分析

David的粉丝中不少是跨学科学习机器学习（深度学习）的。如何在自己的专业领域里上手数据科学和分析是我经常被问到的问题。

这里我总结一些简单的方法，帮大家快速自学。

1，多数跨学科朋友都不是CS计算机专业的，所以不要折磨自己在编程上，专注一个容易上手的流行语言如R，python，julia可以为你减轻编程负担，如果能力有限建议只精通其中一种语言。

2，立即上手。不要害怕有些编程思想和理论还没有掌握，这里的上手是让你快速了解你这个专业的数据科学家在做什么，用了哪些流行工具？渠道大概有下面3种：

1) 找到你们行业领域的热门竞赛（如推荐领域有亚马逊，Netflix办的竞赛），如果你实在找不到，可以看官方的数据科学竞赛如kaggle, 阿里天池，以生物学DNA测序为例：

直接在kaggle中搜索：“DNA sequencing”就可以得到许多相关信息：

进入到第一个果蝇基因组的数据你就可以看到已经有一些kernel代码可以直接跑了学习：继续阅读在自己专业领域，如何快速成(jia)为(zhuang)一名数据科学家? David 9的一些方法，#入门数据科学，＃数据分析

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30