潜在的ディリクレ配分法(LDA)による国会会議録のトピック分析
長崎大学工学研究科 正田備也 (MASADA, Tomonari)
- 国会会議録データセットから、潜在的ディリクレ配分法(LDA)という手法によって100個のトピックを抽出し、
ZingChartのStacked Areaチャートで可視化しました。
- 各トピックは、それを表現するためによく使われた単語の集まりとして表しています。
- トピックの違いは、どのような単語群によって表現されるかに、あらわれます。
- 上のチャートは、1947年から2012年までのいつの時点で、どのくらい盛んに各トピックが議論されたか、を示しています。
- 色のついた線で区切られた領域のそれぞれが、異なるトピックを表しています。
- 線の上にカーソルをもっていくと、対応するトピックを表す50の単語と、
カーソル位置の年におけるそのトピックの盛り上がり具合を示す数値が表示されます。
- このとき、年の横に表示される数値は、その年にそのトピックを表現するためだけに、
さまざまな単語すべて合わせて何回発話されたかを示しています。
この数値が多いほど、そのトピックを語るためにたくさんの言葉が費やされた、ということです。
- 各トピックが最も盛り上がって議論された年の位置に、小さな四角が置いてあります。
これをクリックすると、対応するトピックを表す50の単語と、その最大の盛り上がりを示す数値が表示されます。
- チャートの上にいくほど、全期間で合計してより頻繁に議論されたトピックになっています。
- 具体的な内容に乏しい言葉ばかりが並んでいるトピックもあります(特に上のほうにあるトピック)。
しかし、そういうトピックの中には、よく見ると、時代特有の言葉遣いが看て取れるものも含まれます。
データ分析方法 (専門家向け解説)
- 上記リンク先のデータセットの発言部分をMeCabで形態素解析。
- 名詞,動詞,形容詞,副詞,接続詞,連体詞,感動詞を取得。活用語は原形に変換。
- 形態素解析によって得られた単語のうち、データセット全体での出現頻度が
「委員」という単語の頻度より大きいか、50未満のものをすべて削除。
- 同じ人物の連続する発言を一つの文書とみなしてまとめる。
- 各文書でのTF(term frequency)データを、潜在的ディリクレ配分法(LDA)の
collapsed Gibbs samplingの観測データとし、事後分布を推定。
- LDAのトピック数は100に設定。
- collapsed Gibbs samplingのiteration数は1,000に設定(つまり1,000回全データをスキャン)。
- ディリクレ事前分布の超パラメータはAsuncionの論文のSection 3.1にある方法で更新。
- 100個のトピック各々について、割り当て頻度の高い順に50個の単語を抽出してチャートに表示。