MENU

Doc2Vecの簡単なまとめとマルコフ連鎖

Doc2Vecでは簡単に文章を分類することができる。

単語のベクトルによる計算はWord2Vecを、文章のベクトルによる計算はDoc2Vecと使い分けることができる。

Doc2Vecで作成するプログラムを応用すれば問い合わせの分類や類似度を図るという観点から、「類似した論文が存在しないか」「類似した特許が既に存在しないか」という形で使用することもできる。

モデル作成の際はコーパスの工夫やパラメーターのチューニングによって精度を高めることができる。

 

マルコフ連鎖について

これまでは文章や単語の意味を理解することに焦点を置いてきたが(形態素解析)、次に文章を作成することについて触れていく。

マルコフ連鎖というのは未来の状態が現在の状態のみで決まるという性質を持つ確率過程のこと。つまり過去の状態に関しては加えず、現在の状態でのみ未来を予測するというものである。これを利用することで既存の文章から自動で文章を生成することができる。

流れとしては

・入力された文章を単語に分解する(形態素解析)

・辞書を作成する。

・始点となる単語と辞書を使って、作文する。

これの流れで実行していく。