IJCAI 2017精选之”BabelNet”: WordNet与维基百科的混血儿, 大型国际化语义关系网

Prominent Paper Award (卓越论文奖) 是AIJ期刊评选出的六年内具有杰出影响力的论文. 今年, BabelNet当选该奖, BabelNet新的在线版更是令人影响深刻:

如上搜索”自由经济“, BabelNet不仅仅会给出”市场经济“, “市场力量“等WordNet语义聚类. 还会给出语义关系:

即, “市场经济“是一个”经济 概念 “, 是”市场“的一部分, 是一种”资本主义“.

还会给出基于距离的语义网:

这样有意思的工作无疑是同时集成了WordNet与维基百科优势:

一方面, BabelNet保留WordNet词义聚类, 语义的边界依靠WordNet来划清; 另一方面, BabelNet利用维基百科丰富的语义连接关系和大量的多国语言数据, 丰富了语义关系网. 

那么, BabelNet是如何把丰富的维基百科信息映射到WordNet语义感知的 ? 核心映射算法如下:

来自: https://www.sciencedirect.com/science/article/pii/S0004370212000793

其中, SensesWikiSensesWN分别代表维基百科中网页的语义感知(sense)和WordNet的语义感知(sense), 语义感知指的是WordNet中一些单词组成的复杂语义.

WordNet中的单个单词”” ,   “喜欢“,   “看书” 都只能表达一些简单的语义, 但是把它们组合起来: “我喜欢看书“又可以表达一些更丰富的语义.

以上算法输出是一个SensesWikiSensesWN映射, 即 , 一个维基百科页可以映射到一组WordNet中的单词集(用来代表一个语义). 所以,

第1-2 行: 初始化所有维基百科页w的语义为空.

第3-5行:如果维基百科页w对应的WordNet单词是单个单词,那么就把这个页w映射到该单词

第6-10行:如果维基百科页d和w中,如果d已经映射到了一些WordNet单词,并且这些单词也能表达w页的信息, 那么要把w页也映射到这些单词。

第11到15行:如果w页还没有被映射,我们计算w页最可能的WordNet映射(用Bag-of-words或基于图的概率计算)

当然,还有许多维基百科的挖掘和概率估计的细节,这里就不一一阐述,如有兴趣,可以查阅参考文献中的内容。无论如何,BabelNet为我们提供了维基百科所没有的丰富语义关系,至少可以作为一个工具供我们使用。

 

参考文献:

  1. http://aij.ijcai.org/index.php/aij-awards-prominent-paper
  2. BabelNet: The automatic construction, evaluation and application of a wide-coverage multilingual semantic network
  3. http://verbs.colorado.edu/~mpalmer/Ling7800/BabelNet.pdf

本文采用署名 – 非商业性使用 – 禁止演绎 3.0 中国大陆许可协议进行许可。著作权属于“David 9的博客”原创,如需转载,请联系微信: david9ml,或邮箱:yanchao727@gmail.com

或直接扫二维码:

发布者

David 9

邮箱:yanchao727@gmail.com 微信: david9ml

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注