潜在的ディリクレ配分法(LDA)による国会会議録のトピック分析

正田研究室 @ 長崎大学 (平成25年2月12日作成)

分析したデータ:http://lod.sfc.keio.ac.jp/challenge2012/show_status.php?id=d036
上の図が伝えようとしているのは,直感的に言えば「戦後日本を表す千の話題」です.
国会会議録を潜在的ディリクレ配分法(LDA: latent Dirichlet allocation)という手法で分析,
“全自動で”千の話題を抽出しました.
各話題は20個のキーワードで表されています.
上の図のあちこちで,同じ色で塗りつぶされた円が20個,龍のように連なっていますが,
それぞれがひとつの話題を表しています.
千の話題のなかには,“話題”というよりもむしろ,
それぞれの時代の政治家に特有の“言葉遣い”を表しているものもあります.
(パソコンのブラウザで300%程度に拡大してご覧ください.)
[専門家向け解説]