CVPR 2017论文精选#1 用模拟+非监督对抗生成图片的增强方法进行学习(Best paper award 最佳论文奖)

人类的想象力似乎是天生的, 而现今计算机的”想象力”来自”数据增强”技术. — David 9

这届CVPR上, 苹果为博得AI界眼球, 竟然拿到了最佳论文 !  也许这篇论文没有什么深远意义,也许只能反映学术被业界商界渗透的厉害,也许有更好的文章应该拿到最佳论文。

这又何妨, 历史的齿轮从来不会倒退, David 9看到的趋势是, 人类越来越擅长赋予计算机”想象力”, 以GAN为辅助的”数据增强”技术是开始, 但绝不是终点 !

言归正传, 来剖析这篇论文, 首先,这篇文章的目标非常清晰,就是用非监督训练集,训练一个“图片优化器”(refiner),用来优化人工模拟图片,使得这一模拟图片更像真实图片,并且具有真实图片的独特属性:

如上图,人工模拟的伪造图片(Synthetic)经过优化器Refiner变得与非监督集合(第一行的3张图片)非常相似,极大的增强了模拟图片的真实性。 继续阅读CVPR 2017论文精选#1 用模拟+非监督对抗生成图片的增强方法进行学习(Best paper award 最佳论文奖)

机器视觉 目标检测补习贴之YOLO实时检测, You only look once

机器视觉是一场科学家与像素之间的游戏 — David 9

上一期,我们已经介绍了R-CNN系列目标检测方法(R-CNN, Fast R-CNN, Faster R-CNN)。事实上,R-CNN系列算法看图片做目标检测,都是需要“看两眼”的. 即,第一眼 做 “region proposals”获得所有候选目标框,第二眼 对所有候选框做“Box Classifier候选框分类”才能完成目标检测:

事实上“第一眼”是挺费时间的,可否看一眼就能得到最后的目标检测结果?达到实时检测的可能? 答案是肯定的,这也是我们要讲YOLO的由来 — You only look once !

YOLO能够做到在输出中同时包含图片bounding box(检测框)的分类信息位置信息:  继续阅读机器视觉 目标检测补习贴之YOLO实时检测, You only look once

机器视觉目标检测补习贴之R-CNN系列 — R-CNN, Fast R-CNN, Faster R-CNN

CVPR 2017在即,David 9最近补习了目标检测的趋势研究。深度学习无疑在近年来使机器视觉和目标检测上了一个新台阶。初识目标检测领域,当然先要了解下面这些框架:

  • RCNN
  • Fast RCNN
  • Faster RCNN
  • Yolo
  • SSD

附一张发表RCNN并开启目标检测深度学习浪潮的Ross B. Girshick(rbg)男神

无论如何,目标检测属于应用范畴,有些机器学习基础上手还是很快的,所以让我们马上来补习一下!

首先什么是目标检测?目标检测对人类是如此简单:

把存在的目标从图片中找出来,就是那么简单! 继续阅读机器视觉目标检测补习贴之R-CNN系列 — R-CNN, Fast R-CNN, Faster R-CNN

业界 | 扒一扒Facebook人工智能谈判模型 — Facebook开源的”端到端”强化学习模型

端到端学习是那么吸引人, 因为它与理想的”自治”学习是那么近. — David 9

我们离完全”自治”的AI系统还很远很远, 没有自我采集样本的能力, 没有自己构建模型的能力, 也缺少”端到端” 学什么就像什么的灵活性. 而最近Facebook 人工智能研究所(FAIR)的研究人员公开了一个具有谈判新能力的对话智能体(dialog agents),并开源了其代码, 在”端到端” 这一方向上更进了一步:

这篇文章的突破仅限于智能对话, 更像是一篇专利, 教大家如何用一堆神经网络训练一个智能对话来获得谈判最终利益. 另外值得注意的是该pytorch项目虽然开源, 但是是经过 creativecommonsNonCommercial 4.0 非商业化协议保护的, 即, 你可以研究和使用代码, 但是你不能直接用它做商业用途.

言归正传, David 9 想说的是, 这个近乎科幻的对话机器人, 其实并没有那么神奇.

首先看看Facebook一伙人怎么收集对话(dialog)数据的 :

Facebook这伙人收集的数据是从亚马逊 Mechanical Turk 交易网站上 买来的, $0.15一个对话, 总共买了5808个对话. 继续阅读业界 | 扒一扒Facebook人工智能谈判模型 — Facebook开源的”端到端”强化学习模型

#16 那些没被玩坏的GAN—用条件对抗网络实现”图片到图片”的通用风格转换

AI的进步是不断为机器赋能: “深蓝”时代机器有了暴力搜索能力, “数据”时代有了依靠数据建模的能力, 甚至用GAN自动寻找目标函数.  下一个时代, 会不会是一个数据和模型泛滥, 机器自我寻找数据和创造模型的时代 ? — David 9

之前伯克利人工智能研究实验室(Berkeley Artificial Intelligence Research (BAIR) Lab)在Arxiv上放出的论文: Image-to-Image Translation with Conditional Adversarial Networks , 又把图片风格转换玩了一把:

来自: https://github.com/junyanz/pytorch-CycleGAN-and-pix2pix
图片到图片风格转换示例—马匹变斑马 来自: https://github.com/junyanz/pytorch-CycleGAN-and-pix2pix

如今, 想把GAN(生成对抗网络)训练出来并且不玩坏, 已经很了不起, 而这篇文章提出通用的框架用于”图片到图片”的风格转换.  加之投稿即将举办的cvpr 2017 , 又出自伯克利之手, 引来了不少目光.

条件对抗网络cGAN进行图片风格转换已经不是新鲜事, 继续阅读#16 那些没被玩坏的GAN—用条件对抗网络实现”图片到图片”的通用风格转换

ICLR 2017论文精选#3 机器自我编程—用”递归” 提高神经编程解释器(NPI)的泛化能力(Best paper award 最佳论文奖)

机器自主编程的发展比我们想象的要快, 并且, 人们容易忽略的是, 互联网上数不尽的源代码本身是高质量的”训练数据”. —— David 9

今天的最佳论文, 是伯克利改进去年 DeepMind 突破性论文: NPI (神经编程解释器). 论文题为: MAKING NEURAL PROGRAMMING ARCHITECTURES GENERALIZE VIA RECURSION

能够让机器自己具有推理能力和编程能力一直是人们梦想, 而如今, 即使深度学习和神经网络发展壮大, 我们在这一领域依然是”婴儿学步”. 去年DeepMind的论文NEURAL PROGRAMMER-INTERPRETERS (NPI) 又似乎让我们看到了曙光. 一旦研究能在工业界大范围应用, 使用伪代码编程, 甚至构造”自治”的下一代互联网都成为可能.

言归正传, 伯克利的这篇论文对去年NPI的改进, 已经能够模拟简单的冒泡排序,拓扑排序,快速排序, 小学生进位加法运算等简单算法. 基本目标如下:

上图蓝色部分是NPI核心, 目标是训练出一个神经网络(往往基础是LSTM), 来模拟一个程序的行为. 最后训练出一个和目标程序行为一样的神经网络.

读者可能好奇训练数据是什么? 继续阅读ICLR 2017论文精选#3 机器自我编程—用”递归” 提高神经编程解释器(NPI)的泛化能力(Best paper award 最佳论文奖)

ICLR 2017论文精选#2—用半监督知识迁移增强深度学习中训练数据的隐私(Best paper award 最佳论文奖)

藏私房钱的男同胞们, 是不是先要把钱分好几份, 然后藏在房间中的不同位置 ?    现在, 这种”智慧”用在了数据隐私上 …  —— David 9

虽然本届ICLR有许多不公平的评审传言, 但是令人欣慰的是, 目前深度学习发展如此迅猛, 以至于一些好的理论文章没有通过评审, 而有用的实际应用文章又如此之多让评审员为难. 无论如何, 今天要讲的这篇论文在保护训练隐私数据上非常有用, 从而浮出水面.

这篇论文也出自Google 大脑之手, 名为: SEMI-SUPERVISED KNOWLEDGE TRANSFER FOR DEEP LEARNING FROM PRIVATE TRAINING DATA. 论文给出了一种通用性的训练隐私数据的解决方案,名为”「教师」集成模型的隐私聚合”(Private Aggregation of Teacher Ensembles/PATE),PATE 发音类似”法国肉酱”这种食物。

框架总览:

目前对于模型隐私数据的攻击威胁一般基于以下两个假设: 继续阅读ICLR 2017论文精选#2—用半监督知识迁移增强深度学习中训练数据的隐私(Best paper award 最佳论文奖)