“图片风格转换”又出新作,英伟达CVPR论文:高效图片风格转换与解析闭合解

如果性能遇到了瓶颈,“老套”的办法总能帮我们搞定一些事情 — David 9

深度卷积网络 广泛应用以来,我们更像进入了一个“伪智能”时代。深度网络的“创造”更多的是基于“巨量数据”的“创造”。以图片风格转换为例,无论是我们以前说的GAN还是其他变形CNN,都需要标注样本达到一定量,才能生成比较好的风格转换图(附带着冗长的训练时间 和其他模型调优技巧):

英伟达前不久放出的CVPR新论文,一定程度上证明了在这个“伪智能”时代,只用深度网络是不够的,往往加入一些“老套”的算法可以帮你得到一些“漂亮”的结果:

来自:https://arxiv.org/pdf/1802.06474.pdf

上图是给定一张原始图片(a)和一张“黑夜”风格图片(b),我们希望把(a)的风格转换成(b)的结果。

可见(c)与(d)的结果都没有英伟达声称的方法(e)看起来自然。

英伟达这篇论文的一大半贡献不在深度网络,

而是如何把传统的WCT白化和调色转换:whitening and coloring transforms)应用到深度网络中,以及图片平滑的后处理工作。

整体框架如下:

来自:https://arxiv.org/pdf/1802.06474.pdf 继续阅读“图片风格转换”又出新作,英伟达CVPR论文:高效图片风格转换与解析闭合解

理解Hinton胶囊网络之精华浓缩版,第一部分: 胶囊网络背后的灵感与初衷(Capsule Networks)

David 9 一直想扒一扒Hinton的胶囊网络,老教授两篇论文有些晦涩,但今天发现AI³普及帖不错,只是略显冗长。。所以,精华浓缩版就呼之欲出了O(∩_∩)O~

深度CNN是Hinton老教授10年前就在重点研究的课题,胶囊网络也是Hinton早已思考的内容,所以,

第一:胶囊网络不是空穴来风的新算法,而是基于CNN的缺陷和新需求的改进。

第二,胶囊网络比CNN好在哪里??

首先,CNN牛X之处在于用类似蛮力的海量数据方式,自动把重要的分类特征找到,所以,无论图像是不是完整,我们都有理由相信CNN能够识别图中有没有“米老鼠”这个对象:

不完整的米老鼠拼图
完整的米老鼠拼图

只要CNN看到有象征米老鼠的“耳朵”和“鼻子”, CNN就认定这张图中有“米老鼠”。(哪怕拼图还没完成继续阅读理解Hinton胶囊网络之精华浓缩版,第一部分: 胶囊网络背后的灵感与初衷(Capsule Networks)

理解Hinton胶囊网络之精华浓缩版,第二部分: 胶囊网络是如何工作的?(Capsule Networks)

胶囊网络精华浓缩版第一部分中,我们就吐槽过Max pooling的一堆缺陷:

  • 虽然最大池化层可帮助辨别图像中元素的位置关系,但是有太多信息丢失(pooling操作“粗暴地”把局部相邻像素点集压缩成一个像素点)
  • 缺乏空间分层和空间推理能力,缺乏“举一反三”的能力
Max pooling图示

当我们深入看胶囊网络的工作方式,我们会感觉胶囊网络就是为改进Max Pooling而生的:

来自: https://arxiv.org/pdf/1710.09829.pdf

上图胶囊网络整体架构中,卷积层Conv1输出后,跟的不再是Max Pooling层, 而是主胶囊层(PrimaryCaps layer)数据胶囊层(DigitCaps layer)

这些胶囊层到底是如何工作的?我们先从胶囊层和一般的全连接层入手。

一般的全连接层是这样工作的:

来自:https://medium.com/ai%C2%B3-theory-practice-business/understanding-hintons-capsule-networks-part-ii-how-capsules-work-153b6ade9f66

对于上一层Max Pooling输出的所有标量(x1, x2, x3)与权重(w1,w2,w3)做卷积求和操作。最后,使用非线性激活函数 f(•)输出预测值hj 继续阅读理解Hinton胶囊网络之精华浓缩版,第二部分: 胶囊网络是如何工作的?(Capsule Networks)

做机器学习,再别把IoU,ROI 和 ROC,AUC 搞混了 !聊聊目标检测,医疗领域的那些评价函数

涉及领域不多的机器学习爱好者经常会把IoU,ROI 和 ROC,AUC 这样的评价函数(Metric functions)搞混。其实记住它们也没那么难,David 9今天就来帮大家理一理:

1. IoU (Intersection over Union),交集并集比

2. ROI (region of interest) , 感兴趣区域

3. ROC (Receiver Operating Characteristic curve) 受试者工作特征曲线

4. AUC (Area Under the Curve) , 曲线下区域

首先要区分,前两个目标检测领域的术语;后两个是从医疗领域引进的,但是所有机器学习准确率都可能用到该指标。

最容易理解的是第2个ROI,我们做任何目标检测在准备数据集时都要选择感兴趣区域, 我们之前的文章也提到过

labelImg 就是一个不错的标注工具。帮助你选择目标检测的感兴趣框。是的这不是一个评价函数,是一个概念而已。 继续阅读做机器学习,再别把IoU,ROI 和 ROC,AUC 搞混了 !聊聊目标检测,医疗领域的那些评价函数

深度增长网络: 构建稳定,高质量,多样的GAN对抗模型,英伟达论文选读2

GAN凝结了人们对”创作”本质的看法 — David 9

虽然ICLR 2018 要明年5月举办, 一些企业巨头已经摩拳擦掌,前不久,英伟达正在审阅的论文引起了大家注意,David 9觉得很有意思。论文用深度增长的网络构建、并生成稳定,高质量,多样的GAN对抗样本图片 :

来自:https://www.youtube.com/watch?v=XOxxPcy5Gr4&feature=youtu.be

上图demo是深度增长网络GAN生成的明星样本,清晰度和质量堪称惊艳。论文打破了神经网络在训练过程中“架构不变”的惯性思维。为了更好地“临摹”高清的明星脸谱,训练过程中,先从“粗略模糊”地“勾勒”开始对抗学习: 继续阅读深度增长网络: 构建稳定,高质量,多样的GAN对抗模型,英伟达论文选读2

聊一聊Vicarious发表在Science的那篇生成视觉模型,被LeCun痛批的递归皮质网络RCN

自己吹得牛逼,硬着头皮也要实现

Vicarious是和Deepmind对标的以强人工智能为目标的美国AI新兴公司。有意思的是,虽然融了上亿美元,除了工业机器人,Vicarious并没有像Deepmind的AlphaGo类似接地气的夺目产品。之前饱受争议,终于在近期公开的递归皮质网络RCN还被LeCun痛批了一回。RCN号称攻破了人类的CAPTCHA验证码自动识别,达到了神经网络300倍的数据利用率:

首先我们来看一下Yann LeCun早在2013年批评的理由: 继续阅读聊一聊Vicarious发表在Science的那篇生成视觉模型,被LeCun痛批的递归皮质网络RCN

#Inception深度网络家族盘点 | Inception v4 和Inception-ResNet未来走向何方 ?

多融合和标准化的网络是深度架构未来的可见趋势 — David 9

Inception深度网络架构已经走过4个版本,AI的空前热潮,让业内期待新网络架构的心情如同当年期待Window系统版本一样。

Inception V1的想法其实很简单:一方面我们人工地调整每层卷积窗口的尺寸(真麻烦!)另一方面,我们又想让深度网络更“深”,为什么不让同一层就有各种大小卷积可以学习?

是不是轻松多了?仅仅一层block就包含1*1卷积,3*3卷积,5*5卷积,3*3池化。

这样,网络中每一层都能学习到“稀疏”或者“不稀疏”的特征:

另外,Inception V1开创了两个变化:

1. 以前每一层线性卷积需要之后跟一个Relu激活函数或者pooling层增加非线性。而Inception V1直接通过DepthConcat在每个block后合成特征,获得非线性属性。 继续阅读#Inception深度网络家族盘点 | Inception v4 和Inception-ResNet未来走向何方 ?