このプログラムではlivedoorニュースコーパスを利用する。 スポーツ、IT、映画、ライフの4つに分けたデータベースを生成する。 実行結果 genre.pickleというファイルにTF-IDFに文章を変換したデータを格納し保存する。 tfidfモジュール内で生成した単語辞書…
TF-IDFとは BOW(Bag-of-Words)のように文章をベクトルデータに変換する手法のこと。BOWの手法では単語の出現頻度によって文章を数値化していた。TF-IDFでは単語の出現頻度に加えて、文章全体における単語の重要度も考慮するもの。TF-IDFは文書内の特徴的な単…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。