1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Nhập môn Phân tích Văn bản bằng R

Connected

Bài tập

So sánh đầu ra LDA

Đến giờ bạn mới chạy một mô hình LDA với một số lượng chủ đề cố định. Kết quả đã được tidy từ mô hình đó, lda_out_tidy, cùng với dtm_twitter đã được nạp sẵn vào không gian làm việc của bạn. Bây giờ hãy chạy LDA với 3 chủ đề và so sánh các đầu ra.

> lda_out_tidy

# A tibble: 35,928 x 3
   topic term        beta
   <int> <chr>      <dbl>
 1     1 flight   0.0343 
 2     1 time     0.0102 
 3     2 service  0.00882
 4     1 plane    0.00688
 5     1 trip     0.00614
 6     2 customer 0.00604
 7     1 delayed  0.00596
 8     2 airline  0.00593
 9     1 hours    0.00532
10     1 day      0.00499
# ... với 35,918 hàng nữa

Hướng dẫn

100 XP
  • Chạy LDA với 3 chủ đề và Gibbs sampler (có thể mất 10 giây hoặc hơn).
  • Tidy ma trận xác suất từ.
  • Sắp xếp các chủ đề theo xác suất từ giảm dần.