CVPR 2017论文精选#3 不可思议的研究: EEG脑电波深度学习在视觉分类中的应用

大脑是天然的特征提取器, 如果不能理解它, 或许可以模拟它, 它蕴含的泛化能力真是惊人 — David 9

许多人相信VR或AR硬件可能是人机交互的未来,  这些欺骗人眼睛和感官的技术, 都是来源于我们对这些感官更深层次的理解. 越是对这些感官了解透彻, 越是容易创造出魔法般的人机交互. 今天David 9想要分析的论文就和感官交互有关, 特别之处是它是人体最复杂的感官 — 大脑 .

很难想象今年CVPR上竟然有这样一篇近乎科幻不可思议的研究, 相信读完你也会兴奋的.

这篇文章本质上的研究, 是从EEG脑电波提取视觉特征, 从而进行我们常见的视觉分类任务(狗? 吉他? 鞋子? 披萨?):

来自: https://www.youtube.com/watch?v=9eKtMjW7T7w&t=343s

最后一层全连接层做的视觉分类任务是非常常见的.

不同的是前面层不再是从头训练Alexnet, GoogleNet或者VGG, 也不是预训练的神经网络. 而是通过收集脑电波信息, 分析脑电波提取的抽象特征.

随着EEG(脑电波记录) 的普及, 实验已经证明人类看到不同种类物体, 就会反应出不同的脑电波反应. 下图是人看到两个Imagenet图片后, 脑电波反应的图谱:

来自: http://crcv.ucf.edu/papers/cvpr2017/cvpr_eeg_gen_2017_camera_ready.pdf

显然在一些频道上, 看不同物体时人脑的脑电波是有差别的, 所以我们可以很自然地假设脑电波反应了人体对物体的识别信息(当然还有许多情感信息, 思考的信息等等).

虽然文章实验用的是imagenet中40个分类, 但是要收集人的脑电波对如此多图片的反应数据, 就是很大的工作量, 不得不佩服.

更令人吃惊的是, 他们找到了抽取这些时序脑电图中特征的方法:

来自:http://crcv.ucf.edu/papers/cvpr2017/cvpr_eeg_gen_2017_camera_ready.pdf

这里的ENCODER就是抽取特征的核心.

为了得到一个好的ENCODER作者尝试了3中架构:

作者:http://crcv.ucf.edu/papers/cvpr2017/cvpr_eeg_gen_2017_camera_ready.pdf

这3种架构文章中分别称为:

a)Common,把所有的脑电波通道同时输入到一个个LSTM中,最后一层的LSTM输出就是需要的特征表征

b)Channel + Common,每个频道分别先输入到单个LSTM,随后汇总后输入到一个大的LSTM中

c)Common+output, 与a)相似,不同的是多了一层output输出层(类似全连层+RELU)

经过实验,文章认为c)架构有最好的泛化能力:

来自:http://crcv.ucf.edu/papers/cvpr2017/cvpr_eeg_gen_2017_camera_ready.pdf

为了证明从脑电波提取的特征的有效性和通用性,文章还把上述学习到的特征表述迁移到一个CNN中,图片的端到端分类(无须进行再次脑电波读取):

来自:http://crcv.ucf.edu/papers/cvpr2017/cvpr_eeg_gen_2017_camera_ready.pdf

上图的CNN REGRESSOR做到了模拟之前学习到的"图片到特征表征"的映射.

最后一层的CLASSIFIER不变,是抽象特征表征到类别的后续训练(事实上CLASSIFIER可以是SVM, KNN,随机森林,无须太复杂)

虽然实际使用这些提取的特征表征,不比成熟的GoogleNet和VGG准确度高,但是考虑到GoogleNet和VGG的imagenet训练图片集非常丰富,而该论文的脑电波数据集并不像imagenet这样丰富,而且是在脑电波的基础上提取信息的,在Caltech-101子集上能达到70%的准确率已经很不容易了:

来自:https://arxiv.org/pdf/1609.00344.pdf

 

参考文献:

  1. https://arxiv.org/abs/1609.00344
  2. https://www.quora.com/What-are-the-most-interesting-CVPR-2017-papers-and-why/answer/Zeeshan-Zia-1?srid=pdns
  3. http://crcv.ucf.edu/papers/cvpr2017/cvpr_eeg_gen_2017_camera_ready.pdf
  4. https://www.youtube.com/watch?v=9eKtMjW7T7w&t=343s
  5. https://www.slideshare.net/xavigiro/learning-representations-from-eeg-with-deep-recurrent-convolutional-neural-networks

本文采用署名 – 非商业性使用 – 禁止演绎 3.0 中国大陆许可协议进行许可。著作权属于“David 9的博客”原创,如需转载,请联系微信: david9ml,或邮箱:yanchao727@gmail.com

或直接扫二维码:

发布者

David 9

邮箱:yanchao727@gmail.com 微信: david9ml

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注