MENU

2021-02-16から1日間の記事一覧

文章をTF-IDFのデータベースに変換

このプログラムではlivedoorニュースコーパスを利用する。 スポーツ、IT、映画、ライフの4つに分けたデータベースを生成する。 実行結果 genre.pickleというファイルにTF-IDFに文章を変換したデータを格納し保存する。 tfidfモジュール内で生成した単語辞書…

TF-IDFの手法でモジュール作成

TF-IDFとは BOW(Bag-of-Words)のように文章をベクトルデータに変換する手法のこと。BOWの手法では単語の出現頻度によって文章を数値化していた。TF-IDFでは単語の出現頻度に加えて、文章全体における単語の重要度も考慮するもの。TF-IDFは文書内の特徴的な単…