1. เรียนรู้
  2. /
  3. Courses
  4. /
  5. Rで始めるテキスト分析

Connected

Exercises

LDA の出力を比較する

これまでに、特定の話題数で LDA を1回だけ実行しました。そのモデルの整形済み出力 lda_out_tidy は、dtm_twitter とともにワークスペースに読み込まれています。ここで、話題数を 3 にして LDA を実行し、出力を比較しましょう。

> lda_out_tidy

# A tibble: 35,928 x 3
   topic term        beta
   <int> <chr>      <dbl>
 1     1 flight   0.0343 
 2     1 time     0.0102 
 3     2 service  0.00882
 4     1 plane    0.00688
 5     1 trip     0.00614
 6     2 customer 0.00604
 7     1 delayed  0.00596
 8     2 airline  0.00593
 9     1 hours    0.00532
10     1 day      0.00499
# ... with 35,918 more rows

คำแนะนำ

100 XP
  • 話題数を 3、サンプラーに Gibbs を指定して LDA を実行します(10 秒以上かかる場合があります)。
  • 単語確率の行列を tidy 形式に変換します。
  • 単語確率が高い順に話題を並べ替えます。