关于词向量的一些有趣应用

前边几节我们提到,对词向量的期望是具有相同语义的词之间的距离比较近,不同语义的词之间的距离比较远。那么在词向量训练完成之后,我们可以基于这个期望去实验一些有趣的应用,也相当于是验证词向量学习的好坏。

1. 相似度计算

我们可以去挖掘某个单词的同义词,即将一个单词的词向量和其他所有单词词向量进行距离计算,距离最小的那些词就是和该单词语义相近的,例如:

  • nice: good, great, wonderful

  • dog: dogs, puppy

2. 词聚类

根据各个单词的词向量,可以执行词聚类的算法,这样可以挖掘出一批语义相近的单词,例如:

  • Beijing, Washington, Paris, Berlin

  • slow, slowser, slowest

3. 词关系推理

这是比较有趣的一个应用,通过词语义上的一些关系来进行推理一些词,例如下面几个例子。

  • King - Man + Woman = Queen

  • China - Beijing + Washington = America