MENU

python 形態素解析(mecab-ipadic-NEologdの使用)

mecad-ipadic-NEologdとは新し語や固有表現を追加することでIPADICを拡張したMeCab用のシステム辞書である。

毎週2回更新されていて、はてなキーワードやニュース記事などから新しい情報資源から単語を抽出して辞書を作成している。

f:id:hanamichi_sukusuku:20210115204410p:plain

実行結果

f:id:hanamichi_sukusuku:20210115204434p:plain

MeCabで利用するシステム辞書を変更するにはMeCabオブジェクト生成時に-dオプションを指定し、辞書ファイルが保存されているパスを指定する。(事前にmecab-ipadic-neologdをインストールしてある)

MeCabでは大きく分けてシステム辞書とユーザー辞書といった二つの辞書が利用できる。システム辞書を変更したいときは-dオプション、ユーザー辞書を利用したいときは-uオプションを指定する。

 

parse()メソッドで形態素解析を行い結果を出力する。

 

今回では恋ダンスという言葉が恋とダンスで分かれずに出力されていることがわかる。