単語の意味をベクトル化
単語ベクトル化を行うと「単語の意味を計算すること」や「単語の類似度を計算すること」ができるようになる。
例えば
「王」ー「男」+「女」=「女王」
この式は、王様のベクトルから、男性のベクトルを引き、女性のベクトルを足すと、女王のベクトルと親しいものになるということを表現している。
ここでいうベクトルというのは単語の意味を表現するのに一つの単語を認識ために複数の特徴でその単語の意味を認識できるようにしている。つまり単語をベクトルで表現していてベクトルとはその単語を示す特徴の一つと言える。よって上記の式が成り立つ。
分散表現
単語のベクトル表現は正式には分散表現と言い単語を高次元の実数ベクトルで表現する技術である。
高次元の実数ベクトルと言ってもピンと来ないので
図
単語
|
大きさ
|
甘さ
|
黄色さ
|
---|---|---|---|
りんご
|
0.23
|
0.42
|
0.02
|
バナナ
|
0.21
|
0.73
|
0.94
|
車
|
0.89
|
0.04
|
0.10
|
このように一つの単語を複数の特徴と数字で表したもの。そして、この特徴は200~300個の項目にして表現する。