业界 Archives | 第6页共7页 | David 9的博客 --- 不怕"过拟合"

聊聊目标检测中的多尺度检测（Multi-Scale），从YOLO，ssd到FPN，SNIPER，SSD填坑贴和极大极小目标识别

狙击手在放大倍焦前已经经历了大量的小目标训练，这样看似乎是RPN做的好 — David 9

之前在讲SSD时我们聊过SSD的目标检测是如何提高多尺度（较大或较小）物体检测率的。我们来回顾一下，首先，较大的卷积窗口可以卷积后看到较大的物体, 反之只能看到较小的图片. 想象用1*1的最小卷积窗口, 最后卷积的图片粒度和输入图片粒度一模一样. 但是如果用图片长*宽的卷积窗口, 只能编码出一个大粒度的输出特征.

对于yolov1，每层使用同样大小的卷积窗口, 识别超大物体或者超小物体就变得无能为力（最后一层的输出特征图是固定7*7）:

而SSD就更进一步，最后一层的检测是由之前多个尺度（Multi-Scale）的特征图共同生成的：

这样SSD在计算复杂度允许的情况下，在多尺度物体的检测上有所提高。但是SSD也有明显缺陷，其最后几层的所谓“多尺度”是有限的（如上图特征图尺寸越小，可以识别的物体越大）。对于极小的目标识别，SSD就显得无能为力了，继续阅读聊聊目标检测中的多尺度检测（Multi-Scale），从YOLO，ssd到FPN，SNIPER，SSD填坑贴和极大极小目标识别

时间卷积网络(TCN) 总结：时序模型不再是递归网络(RNN) 的天下，但作为信息粗暴提取的一种方法，请不要神话CNN !

深度学习似乎进入了“泛模型”阶段，同一个问题可以用不同深度学习结构解决，但是没有人可以证明哪个模型一定最好 — David 9

最近读到文章说“TCN（时间卷积网络）将取代RNN成为NLP预测领域王者”。一方面David 9 想为RNN抱不平，请大家别过于迷信CNN，毕竟只是一种特征提取方法，不必神话它（想想当年有人认为SVM可以解决所有建模问题）。

另一方面，可以感受到深度学习进入了“泛模型”的阶段。模型的结构创新没有衰退的趋势，而这些创新不出意料很快会被其他模型超越。这些“超越”都是实验与经验上的“超越“，没有SVM这样扎实的理论。

回顾历史可以发现，广义的计算机”模型“一直在”向上”做更灵活的事情。

ML时代那些机器学习”模型“（SVM，随机森林）一般只做最后的分类、聚类或回归；现在深度学习时代“模型”（以CNN、RNN为主）把特征提取的工作也一并做掉了。可以预见，未来物联网IOT发展到一定阶段，我们需要更复杂“模型”去自动收集数据，具体是什么形式的“模型”我们可以拭目以待。

言归正传，今天David 9 要把TCN（时间卷积网络，CMU的研究总结）这个“坑”给填了。其实TCN只是一维卷积变形之后在时序问题上变得适用（以前David 9也讲过一维卷积）：

来自论文：An Empirical Evaluation of Generic Convolutional and Recurrent Networks
for Sequence Modeling

仔细观察就可以发现，TCN的卷积和普通1D卷积最大的不同就是用了扩张卷积（dilated convolutions），越到上层，卷积窗口越大，而卷积窗口中的“空孔”越多。

上式是扩展卷积操作的式子，其中d是扩展系数（即评价“空孔”的多少）。继续阅读时间卷积网络(TCN) 总结：时序模型不再是递归网络(RNN) 的天下，但作为信息粗暴提取的一种方法，请不要神话CNN !

聊一聊Vicarious发表在Science的那篇生成视觉模型，被LeCun痛批的递归皮质网络RCN

自己吹得牛逼，硬着头皮也要实现

Vicarious是和Deepmind对标的以强人工智能为目标的美国AI新兴公司。有意思的是，虽然融了上亿美元，除了工业机器人，Vicarious并没有像Deepmind的AlphaGo类似接地气的夺目产品。之前饱受争议，终于在近期公开的递归皮质网络RCN还被LeCun痛批了一回。RCN号称攻破了人类的CAPTCHA验证码自动识别，达到了神经网络300倍的数据利用率：

首先我们来看一下Yann LeCun早在2013年批评的理由：继续阅读聊一聊Vicarious发表在Science的那篇生成视觉模型，被LeCun痛批的递归皮质网络RCN

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30