MENU

自動作文の作成について

hanamichi-sukusuku.hatenablog.com

こちらで紹介したマルコフ連鎖を用いた自動作文ではオウム返しのようなやりとりになってしまったり、辞書からランダムに単語を取得していることからあまり実用的でないプログラムになっている。しかし、応用できる箇所はいろいろあり、例えば応答文を作成する場合、上記のリンクでは単語の品詞に注目し、始点となる単語を決めてしまっているが、これを機械学習を用いて文章の意図を判定し、その結果を始点に応答文を作成するなら、今回のようなオウム返しのような返答ではなく、もう少し実際の会話に近い応答を返すことが可能だと思われる。

さらに、辞書を充実させたり、会話の規則を作ったりすることもできる。マルコフ連鎖以外にも目を向けていくと、ディープラーニングを用いたLSTM(Long Short Term-Memory)やRNN(Recurrent Neural Network)も文章を自動生成する手法として有名なため、それらの手法を利用して自動作文に挑戦してみることもできる。

 

オープンなテキストソース

自然言語処理にはある程度規模を持ったテキストリソースが必須になる。自身で用意するのは大変なのでオープンなテキストリソースの紹介をしていく。

 

wikipedia

世界最大のフリー百科事典。

 

https://ja.wikipedia.org/

 

青空文庫

著作権の消滅した作品では知的財産権が発生しないのでかなり自由に利用できる。

ただ、非常に古い作品になるので使い道によっては問題があるかも。

 

http://www.aozora.gr.jp/

 

livedoor ニュースコーパス

2012年までのデータとなっているが提供媒体ごとのニュース記事がしっかりと分類されている。文字コードUTF-8で統一されたテキストファイルで提供されているので、プログラムからでも扱いやすいデータになっている。

 

http://www.rondhuit.com/download.html#ldoc