Prominent Paper Award (卓越论文奖) 是AIJ期刊评选出的六年内具有杰出影响力的论文. 今年, BabelNet当选该奖, BabelNet新的在线版更是令人影响深刻:
如上搜索”自由经济“, BabelNet不仅仅会给出”市场经济“, “市场力量“等WordNet语义聚类. 还会给出语义关系:
即, “市场经济“是一个”经济 概念 “, 是”市场“的一部分, 是一种”资本主义“.
还会给出基于距离的语义网:
这样有意思的工作无疑是同时集成了WordNet与维基百科优势:
一方面, BabelNet保留WordNet词义聚类, 语义的边界依靠WordNet来划清; 另一方面, BabelNet利用维基百科丰富的语义连接关系和大量的多国语言数据, 丰富了语义关系网.
那么, BabelNet是如何把丰富的维基百科信息映射到WordNet语义感知的 ? 核心映射算法如下:
其中, SensesWiki和SensesWN分别代表维基百科中网页的语义感知(sense)和WordNet的语义感知(sense), 语义感知指的是WordNet中一些单词组成的复杂语义.
WordNet中的单个单词”我” , “喜欢“, “看书” 都只能表达一些简单的语义, 但是把它们组合起来: “我喜欢看书“又可以表达一些更丰富的语义.
以上算法输出是一个SensesWiki到SensesWN映射, 即 , 一个维基百科页可以映射到一组WordNet中的单词集(用来代表一个语义). 所以,
第1-2 行: 初始化所有维基百科页w的语义为空.
第3-5行:如果维基百科页w对应的WordNet单词是单个单词,那么就把这个页w映射到该单词
第6-10行:如果维基百科页d和w中,如果d已经映射到了一些WordNet单词,并且这些单词也能表达w页的信息, 那么要把w页也映射到这些单词。
第11到15行:如果w页还没有被映射,我们计算w页最可能的WordNet映射(用Bag-of-words或基于图的概率计算)
当然,还有许多维基百科的挖掘和概率估计的细节,这里就不一一阐述,如有兴趣,可以查阅参考文献中的内容。无论如何,BabelNet为我们提供了维基百科所没有的丰富语义关系,至少可以作为一个工具供我们使用。
参考文献:
- http://aij.ijcai.org/index.php/aij-awards-prominent-paper
- BabelNet: The automatic construction, evaluation and application of a wide-coverage multilingual semantic network
- http://verbs.colorado.edu/~mpalmer/Ling7800/BabelNet.pdf
本文采用署名 – 非商业性使用 – 禁止演绎 3.0 中国大陆许可协议进行许可。著作权属于“David 9的博客”原创,如需转载,请联系微信: david9ml,或邮箱:yanchao727@gmail.com
或直接扫二维码:
David 9
Latest posts by David 9 (see all)
- 修订特征已经变得切实可行, “特征矫正工程”是否会成为潮流? - 27 3 月, 2024
- 量子计算系列#2 : 量子机器学习与量子深度学习补充资料,QML,QeML,QaML - 29 2 月, 2024
- “现象意识”#2:用白盒的视角研究意识和大脑,会是什么景象?微意识,主体感,超心智,意识中层理论 - 16 2 月, 2024