KDD 2017精选#1 用”模仿和类比”挖掘加速创新 , GRU循环神经网络新用法(Best paper award 最佳论文奖)

An essential [of an inventor] is a logical mind that sees analogies. — Thomas Edison

很难想象如果所有创新工作交给AI去做, 人类存在的意义是什么?

今年KDD2017最佳论文(Accelerating Innovation Through Analogy Mining) 向这个方向迈进了一步. 作者试图从庞大的专利和文献库中, 挑选出可以激发发明者灵感的想法, 呈现给发明者(USPTO上就有900万多的专利)

如对于一个带电池的手机壳的初始idea:

来自: https://arxiv.org/pdf/1706.05585.pdf

通过”模仿和类别“挖掘, 模型可以搜索并提供下面idea的提示, 呈现给发明者:

上图是一个Flash充电时的卡扣装置, 和一个自带电源的USB插座, 都是对比模仿初始idea从庞大文献中找出的两个类似idea.

最后, 一个发明人看到以上这些启发和提示, 发明出了以下产品:

来自: https://arxiv.org/pdf/1706.05585.pdf

一个履带式的发电器, 戴在身上, 人体移动时, 就可以发电蓄电. 可见, 模型做出的前两个发明提示对发明者有一定的帮助. (模型给出了不完全相似但是很相关的启发)

模型是如何给出这些有用提示的呢? 这就是文章有意思的地方: 利用对”模仿和类比”的挖掘, 建立模型.

目前给发明者的自动推荐方法, 不是停留在表面的相似性, 就是随机性太强相关性太弱:

上图是对之前带电池的手机壳idea的TF-IDF推荐方法和RANDOM推荐方法, 可以看到TF-IDF方法的推荐停留在”手机”和”电源”两个相似度上; RANDOM方法相关性太差, 对发明者启发作用低.

为了解决上述痛点, 文章使用目标/机制分离的模仿和类比挖掘.

一个发明势必有一个目标, 和一个机制, 让我们回到文章开头的例子:

发明者收到启发的这项发明, 目标是”获得更多的电源, 或电量”, 机制是”用人体运动带动履带发电”. 而种子idea是:

目标也是”获得更多的电源, 或电量“, 而机制却截然不同: “把电池放在手机壳中蓄电”.

非常多创新发明都是通过”模仿和类比”获得启发的. 飞机是由对鸟飞行的模拟, 潜水艇也是由一种特殊鱼启发的. 总结这些启发可以归纳为两点:

  1. 目标相同, 机制不同
  2. 机制相同, 目标不同

两种情况下都可能催生创新:

来自:https://www.youtube.com/watch?v=clecM-xQ3Uk

上式,p代表purpose目的,m代表mechanism机制,大于一定的阈值( threshold)可以一定程度保证创新的同时, 也保证发明的相关性.

为了完成完整的发明推荐过程, 文章做了以下3方面工作:

  1. 把一篇专利或文献进行预处理, 把能够突出目标/机制的单词给予更多权重, 最后输出一个可以用来训练的单词串.
  2. 用步骤1中获得的单词串训练集, 训练一个双向GRU, 最后跟一个线性模型, 输出一篇专利或文献的目标/机制分类. 即, 能够识别一篇专利或文献的目标和机制.
  3. 把2中获得的目标和机制解释并推荐给发明者, 从而启发发明者.

总结如下图:

本质上, 双向GRU RNN是解决一个翻译问题: 输入为一篇专利或文献, 输出为其”目标和机制”.

而为何要用”双向”GRU, David 9猜测作者是想同时把”目标”和”机制”两方面信息存储在神经网络中. 为什么选择RNN? 我想是因为这是序列翻译问题, 算是标配了.

可见, 我们依然停留在一个AI辅助人类, 本质上用概率和”特征工程”进行数据挖掘的时代. David 9更期待的是一个AI有自主”理解”和”推理”能力的时代.

 

参考文献:

  1. Accelerating Innovation Through Analogy Mining
  2. https://www.youtube.com/watch?v=clecM-xQ3Uk
  3. https://www.youtube.com/watch?v=oXkMrZ5DpO8
  4. Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling
  5. NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE

 

本文采用署名 – 非商业性使用 – 禁止演绎 3.0 中国大陆许可协议进行许可。著作权属于“David 9的博客”原创,如需转载,请联系微信: david9ml,或邮箱:yanchao727@gmail.com

或直接扫二维码:

发布者

David 9

邮箱:yanchao727@gmail.com 微信: david9ml

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注