“图片风格转换”又出新作，英伟达CVPR论文：高效图片风格转换与解析闭合解

如果性能遇到了瓶颈，“老套”的办法总能帮我们搞定一些事情 — David 9

自深度卷积网络 广泛应用以来，我们更像进入了一个“伪智能”时代。深度网络的“创造”更多的是基于“巨量数据”的“创造”。以图片风格转换为例，无论是我们以前说的GAN还是其他变形CNN，都需要标注样本达到一定量，才能生成比较好的风格转换图（附带着冗长的训练时间 和其他模型调优技巧）：

而英伟达前不久放出的CVPR新论文，一定程度上证明了在这个“伪智能”时代，只用深度网络是不够的，往往加入一些“老套”的算法可以帮你得到一些“漂亮”的结果：

来自：https://arxiv.org/pdf/1802.06474.pdf

上图是给定一张原始图片（a）和一张“黑夜”风格图片（b），我们希望把（a）的风格转换成（b）的结果。

可见（c）与（d）的结果都没有英伟达声称的方法（e）看起来自然。

而英伟达这篇论文的一大半贡献不在深度网络，

而是如何把传统的WCT（白化和调色转换：whitening and coloring transforms）应用到深度网络中，以及图片平滑的后处理工作。

整体框架如下：

来自：https://arxiv.org/pdf/1802.06474.pdf

第一阶段F1即WCT操作，输入原始图片Is 和风格图片Ic，输出的Y是经过WCT样式转换后的粗糙图片，图片质量较差不那么“自然”。

第二阶段F2，把粗糙转换后的Y对比原始图片Ic，进行图片平滑的后处理F2，获得最后的风格转换图片。

对于第一阶段F1有两个技术点：

1. 在自编码器最深的特征上使用WCT变换：

WCT的核心思想是把最深层的各个特征白化后（PC）直接映射须进行的调色操作（PS）。（如，一根夜光棒和一根普通棒子在黑夜的环境下表现是不一样的，前者会发光）

2. 自编码器的解码部分（decoder）中，使用上采样方法不能自然地还原图片，取而代之，用Unpooling层（反pooling层）进行解码：

来自：https://arxiv.org/pdf/1802.06474.pdf

我们在胶囊网络一期中说过，pooling层很容易丢失一些有用信息，本文用Unpooling还原的方法更直接地把信息还原，而不是用上采样的间接方式。

这样还原的图片更真实，更少有失真和扭曲的情况：

来自：https://arxiv.org/pdf/1802.06474.pdf

来自：https://arxiv.org/pdf/1802.06474.pdf

对于第而阶段F2，主要是把图片做最后的平滑处理：

平滑处理的关键是：既要照顾到相邻像素之间需要连续的平滑性，也要照顾到图片整体风格的自然性。这两者的平衡靠参数 λ调整：

如果太关注全局，一些细节就展现不出来：

如果太关注细节，图片就不那么自然：

文章算法的另一个优势是运算时间较快：

来自：https://arxiv.org/pdf/1802.06474.pdf

已经图片的真实性和自然度较高：

来自：https://arxiv.org/pdf/1802.06474.pdf

参考文献：

本文采用署名 – 非商业性使用 – 禁止演绎 3.0 中国大陆许可协议进行许可。著作权属于“David 9的博客”原创，如需转载，请联系微信: david9ml，或邮箱：yanchao727@gmail.com

或直接扫二维码:

Bio
Latest Posts

David 9

邮箱：yanchao727@gmail.com 微信: david9ml

Latest posts by David 9 (see all)

发布者

David 9

邮箱：yanchao727@gmail.com 微信: david9ml 查看David 9的所有文章

发表回复取消回复