1. 학습
  2. /
  3. 강의
  4. /
  5. R을 활용한 감성 분석

Connected

연습 문제

비교 클라우드

이 연습 문제에서는 용어 빈도를 시각적으로 파악할 수 있는 일반적인 시각화를 만들어 봅니다. 구체적으로, 긍정 및 부정으로 합쳐진 문서에서 가장 자주 등장하는 용어를 살펴볼 것입니다. 앞서 만든 TermDocumentMatrix all_tdm을 떠올려 보세요. 이 행렬은 1,000개의 숙소 리뷰 대신, polarity() 점수에 따라 구분된 모든 리뷰를 담은 2개의 문서로 구성되어 있습니다.

TDM을 행렬로 변환하면 작업이 훨씬 편리해집니다. 변환 후에는 열 이름을 변경하면 됩니다. colnames() 함수는 아래와 같이 할당 연산자의 왼쪽에 사용한다는 점을 기억하세요.

colnames(OBJECT) <- c("COLUMN_NAME1", "COLUMN_NAME2")

그런 다음 행렬을 재정렬하여 가장 긍정적인 단어와 부정적인 단어를 확인합니다. 결론 연습 문제에 답할 수 있도록 이 용어들을 꼭 살펴보세요!

마지막으로, comparison.cloud()를 사용해 용어를 시각화합니다.

지침 1/2

undefined XP
    1
    2
  • 미리 불러온 all_tdm을 as.matrix()를 사용해 all_tdm_m이라는 행렬로 변환하세요.
  • all_tdm_m에 colnames()를 사용해 c("positive", "negative")로 열 이름을 지정하세요.
  • all_tdm_m[,1]에 order()를 적용하고 decreasing = TRUE로 설정하세요.
  • 파이프(%>%)를 사용해 재정렬된 TDM의 상위 10개 용어를 head()로 확인하세요(n = 10 지정).
  • 부정 댓글에 대해서도 위의 두 단계를 반복하세요. 이번에는 두 번째 열인 all_tdm_m[,2]를 기준으로 order()하고 decreasing = TRUE를 사용하세요.
  • order_by_neg로 all_tdm_m을 인덱싱하여 가장 부정적인 상위 10개 용어를 확인하세요. 이를 head()에 파이프하여 n = 10으로 지정하세요.