CVPR 2017论文精选#3 不可思议的研究: EEG脑电波深度学习在视觉分类中的应用

大脑是天然的特征提取器, 如果不能理解它, 或许可以模拟它, 它蕴含的泛化能力真是惊人 — David 9

许多人相信VR或AR硬件可能是人机交互的未来, 这些欺骗人眼睛和感官的技术, 都是来源于我们对这些感官更深层次的理解. 越是对这些感官了解透彻, 越是容易创造出魔法般的人机交互. 今天David 9想要分析的论文就和感官交互有关, 特别之处是它是人体最复杂的感官 — 大脑 .

很难想象今年CVPR上竟然有这样一篇近乎科幻不可思议的研究, 相信读完你也会兴奋的.

这篇文章本质上的研究, 是从EEG脑电波提取视觉特征, 从而进行我们常见的视觉分类任务(狗? 吉他? 鞋子? 披萨?):

来自: https://www.youtube.com/watch?v=9eKtMjW7T7w&t=343s

最后一层全连接层做的视觉分类任务是非常常见的.

不同的是前面层不再是从头训练Alexnet, GoogleNet或者VGG, 也不是预训练的神经网络. 而是通过收集脑电波信息, 分析脑电波提取的抽象特征.

随着EEG(脑电波记录) 的普及, 实验已经证明人类看到不同种类物体, 就会反应出不同的脑电波反应. 下图是人看到两个Imagenet图片后, 脑电波反应的图谱:

来自: http://crcv.ucf.edu/papers/cvpr2017/cvpr_eeg_gen_2017_camera_ready.pdf

显然在一些频道上, 看不同物体时人脑的脑电波是有差别的, 所以我们可以很自然地假设脑电波反应了人体对物体的识别信息(当然还有许多情感信息, 思考的信息等等).

虽然文章实验用的是imagenet中40个分类, 但是要收集人的脑电波对如此多图片的反应数据, 就是很大的工作量, 不得不佩服.

更令人吃惊的是, 他们找到了抽取这些时序脑电图中特征的方法:

这里的ENCODER就是抽取特征的核心．

为了得到一个好的ENCODER作者尝试了３中架构：

作者：http://crcv.ucf.edu/papers/cvpr2017/cvpr_eeg_gen_2017_camera_ready.pdf

这３种架构文章中分别称为：

ａ）Common，把所有的脑电波通道同时输入到一个个LSTM中，最后一层的LSTM输出就是需要的特征表征

ｂ）Channel + Common，每个频道分别先输入到单个LSTM，随后汇总后输入到一个大的LSTM中

ｃ）Common＋output, 与ａ）相似，不同的是多了一层output输出层（类似全连层＋RELU）

经过实验，文章认为ｃ）架构有最好的泛化能力：

为了证明从脑电波提取的特征的有效性和通用性，文章还把上述学习到的特征表述迁移到一个CNN中，图片的端到端分类（无须进行再次脑电波读取）：

上图的CNN REGRESSOR做到了模拟之前学习到的＂图片到特征表征＂的映射．

最后一层的CLASSIFIER不变，是抽象特征表征到类别的后续训练（事实上CLASSIFIER可以是SVM, KNN，随机森林，无须太复杂）

虽然实际使用这些提取的特征表征，不比成熟的GoogleNet和VGG准确度高，但是考虑到GoogleNet和VGG的imagenet训练图片集非常丰富，而该论文的脑电波数据集并不像imagenet这样丰富，而且是在脑电波的基础上提取信息的，在Caltech-101子集上能达到70%的准确率已经很不容易了: