CVPR 2017之#CNN论文精选, PointNet:端到端3D图像(点集)分类与分割

计算机科学很大程度上是权衡“现实”和“理想”的方法学 — David 9

3D图像的分类与分割问题,虽然理想上可以用3D卷积构造深度网络,但事实上, 其巨大计算开销不允许我们直接使用卷积对3D云图集进行训练.  试想2D卷积(GoogleNet, ResNet, Alexnet)训练时间就已经让人捉急了, 何况样本是3D云图:

幸运的是现实再残酷, 人类总能找到暂时解决问题的方法, PointNet就是一个权宜之计:它实现端到端3D图像(点集)分类与分割:

论文不使用3D卷积, 而是用深度网络模拟通用对称函数

来自:https://arxiv.org/pdf/1612.00593.pdf

输入总共n个点的无序云图点集({x1,x2 … , xn}), 通用函数f 输出该云图分类(汽车,书桌,飞机)。 继续阅读CVPR 2017之#CNN论文精选, PointNet:端到端3D图像(点集)分类与分割

CVPR 2017论文精选#2 密集连接的卷积网络DenseNet(Best paper award 最佳论文奖)

如果大脑中的每个神经元都代表一些训练参数,那么,我们在不断的学习过程中,现有的神经元够用吗?大脑是如何优化参数效率的? — David 9

这届CVPR上的两篇最佳论文中, David 9更欣赏康奈尔大学和清华大学的密集连接卷积网络DenseNet(Densely Connected Convolutional Networks) , 内容有料,工作踏实 !我们在之前文章就提到,模型泛化能力的提高不是一些普通的Tricks决定的,更多地来源于模型本身的结构。

CNN发展至今,人们从热衷于探索隐式正则方法(Dropout, Batch normalization等等),到现在开始逐渐关注模型本身结构的创新。这是一个好现象。

密集连接卷积网络DenseNet正是试图把跳层连接做到极致的一种结构创新:

图1-密集连接模块,来自:https://arxiv.org/pdf/1608.06993.pdf

跳层连接方法是对中间层输出特征图信息的探索,之前的ResNets和Highway Networks都曾使用,把前层的输出特征图信息直接传递到后面的一些层,可以有效地提高信息传递效率和信息复用效率。 继续阅读CVPR 2017论文精选#2 密集连接的卷积网络DenseNet(Best paper award 最佳论文奖)

机器视觉 目标检测补习贴之SSD实时检测, Multibox Single Shot Detector

机器视觉是一场科学家与像素之间的游戏 — David 9

上一期,理解了YOLO这样的实时检测是如何”看一眼“进行检测的, 即让各个卷积特征图(通道)蕴含检测位置分类置信度的信息(即下图的Multiway Classification和Box Regression):

对于卷积的本质, David 9需要总结下面两点:

1. 单纯的卷积不会造成信息损失. 只是经过了层层卷积, 计算机看到了“更深”的图片, 输入图片被编码到最后一层的输出特征图(通道) 

2. 较大的卷积窗口可以卷积得到的输出特征图能够看到较大的物体, 反之只能看到较小的图片. 想象用1*1的最小卷积窗口, 最后卷积的图片粒度和输入图片粒度一模一样. 但是如果用图片长*宽 的卷积窗口, 只能编码出一个大粒度的输出特征. 即, 输出特征图越小, 把原始图片压缩成的粒度就越大.  继续阅读机器视觉 目标检测补习贴之SSD实时检测, Multibox Single Shot Detector

机器视觉 目标检测补习贴之YOLO实时检测, You only look once

机器视觉是一场科学家与像素之间的游戏 — David 9

上一期,我们已经介绍了R-CNN系列目标检测方法(R-CNN, Fast R-CNN, Faster R-CNN)。事实上,R-CNN系列算法看图片做目标检测,都是需要“看两眼”的. 即,第一眼 做 “region proposals”获得所有候选目标框,第二眼 对所有候选框做“Box Classifier候选框分类”才能完成目标检测:

事实上“第一眼”是挺费时间的,可否看一眼就能得到最后的目标检测结果?达到实时检测的可能? 答案是肯定的,这也是我们要讲YOLO的由来 — You only look once !

YOLO能够做到在输出中同时包含图片bounding box(检测框)的分类信息位置信息:  继续阅读机器视觉 目标检测补习贴之YOLO实时检测, You only look once

MSRA微软亚洲研究院 最新卷积网络: Deformable Convolutional Networks(可变形卷积网络)

抽样方法的改进似乎像人类进化一样永无休止 — David 9

CVPR 2017机器视觉顶会今年6月21号才举办,但是2016年11月就投稿截止了。微软每年都是CVPR大户,今天我们要讲解的就是MSRA微软亚洲研究院的最新投稿论文:Deformable Convolutional Networks。(很可能被收录哦~)我们暂且翻译为:可变形卷积网络

这是一种对传统方块卷积的改进核。本质是一种抽样改进。

谈到抽样,人脑好像天生知道如何抽样获得有用特征,而现代机器学习就像婴儿一样蹒跚学步。我们学会用cnn自动提取有用特征,却不知用什么样的卷积才是最有效的。我们习惯于方块卷积核窗口,而Jifeng Dai的work认为方块不是最好的形状:

来自:https://arxiv.org/pdf/1703.06211.pdf
来自:https://arxiv.org/pdf/1703.06211.pdf

如果能让网络自己学习卷积窗口形状,是不是一件很美好的事情? 继续阅读MSRA微软亚洲研究院 最新卷积网络: Deformable Convolutional Networks(可变形卷积网络)