1. 학습
  2. /
  3. 강의
  4. /
  5. R로 시작하는 텍스트 분석

Connected

연습 문제

LDA 출력 비교하기

지금까지는 특정 토픽 수로 LDA를 한 번만 실행했어요. 그 모델에서 정리된 결과인 lda_out_tidy와 dtm_twitter가 작업 공간에 로드되어 있어요. 이제 토픽을 3개로 설정해 LDA를 실행하고 결과를 비교해 보세요.

> lda_out_tidy

# A tibble: 35,928 x 3
   topic term        beta
   <int> <chr>      <dbl>
 1     1 flight   0.0343 
 2     1 time     0.0102 
 3     2 service  0.00882
 4     1 plane    0.00688
 5     1 trip     0.00614
 6     2 customer 0.00604
 7     1 delayed  0.00596
 8     2 airline  0.00593
 9     1 hours    0.00532
10     1 day      0.00499
# ... with 35,918 more rows

지침

100 XP
  • 토픽 3개와 Gibbs 샘플러로 LDA를 실행하세요(10초 이상 걸릴 수 있어요).
  • 단어 확률 행렬을 정리해 보세요.
  • 단어 확률이 큰 순서로 토픽을 내림차순 정렬하세요.