叙事詩と自然言語処理(マハーバーラタ1)

叙事詩と自然言語処理(マハーバーラタ1)

叙事詩、神話は著作権が切れているものが多く、ネット上にデータがごろごろ公開されています。

例えばここ
http://www.sacred-texts.com/
あるいはこちらに
https://www.gutenberg.org/

日本語の神話文献がフリーで公開されている場所は青空文庫くらいしか分かりません。ここには知里真志保、知里幸恵(アイヌ神話)、土井晩翠(ギリシャ神話)、ダンテ(キリスト教神話)などがありますね。

こういったデータを使って、自然言語処理をやってみようと思ってます。
自然言語処理というのは要するにパソコンが自動で文章を解析する技術の事です。

今回(というか当分の間)使うデータは
マハーバーラタのGanguli訳
http://www.sacred-texts.com/hin/maha/index.htm

で、使用したAPIはStanfordParserです。
http://nlp.stanford.edu/software/lex-parser.shtml

これを使うと、例えば文章中である単語とある単語がどういう関係にあるかと言ったことが抽出出来ます。

nsubj(victorious-14, Kripa-10)

victorious(常勝の)Kripa(クリパ)のように。

で、これをマハーバーラタ全文に対して実行すると色んな文の関係が抽出出来ます。例えば、「この登場人物に係っている修飾語はどういうのが多いか?」のように。

ドゥルヨーダナだとこうなります。
スクリーンショット 2015-09-19 11.23.42

wicked(悪徳の)と言った単語が多いですね。

ユディシュティラだとこうです。
スクリーンショット 2015-09-21 14.23.48
virtuous(有徳の)と言ったドゥルヨーダナとは対照的な単語が並びます。

全データはここに置いておきます。
http://thetenthart.main.jp/data/mahabharat_chara_chunk.csv

Comments

Copied title and URL