Word2Vecの簡単なまとめ
まとめ
前回までではWikiprdiaの文章をモデルに学習させたが、テキストの集合体であればなんでも学習させることができる。
例えば標準語と方言の類似度を調べることもできる。
・今日も寒いから暖かい格好をしてね
・今日はしばれるから暖かい格好をしてね
このようなコーパスがあれば「寒い」と「しばれる(北海道弁)」の意味が類似していることがわかるようになる。
またWord2Vecで単語のベクトル計算など行う時はコーパスの工夫も必要だが、モデル作成時のパラメーターによるチューニングが結果に対して影響を及ぼすので時間をかけて試すか、独自の仕組みを考えていくかしていくことで精度をあげる必要がある。
・gensimモジュールを使うことで単語のベクトル化、文章のジャンル分けなどの処理を行うことができる。
・Word2Vecによりベクトル化した単語の情報は、機械学習や計算に利用することができる。
・単語のベクトル化は自然言語処理の幅を広げる。
次回からはDoc2Vecについて学習していく
Doc2VecはWord2Vecを発展させたもので任意の文章をベクトル化できる。
Doc2Vecにも二つのアルゴリズムがありdmpwは精度重視、DBOWが速度重視になる。