1. Learn
  2. /
  3. Courses
  4. /
  5. R로 배우는 자연어 처리 입문

Connected

Exercise

TFIDF 실습

이전에 원유 관련 기사들을 bag-of-words로 표현해 보셨죠. TFIDF 값을 계산할 때도 이 bag-of-words 표현을 사용하지만, 단어가 한 기사에 얼마나 자주 등장하는지, 그리고 전체 기사 모음에서 얼마나 자주 등장하는지를 함께 고려합니다.

서로 다른 기사를 비교할 때 어떤 단어가 더 의미 있는지 판단해 보기 위해, 원유에 관한 20개의 기사 모음인 crude에서 단어들의 TFIDF 가중치를 계산하세요.

Instructions

100 XP
  • crude에 대해 article_id와 word 기준으로 TFIDF 값을 계산하세요. 결과 tibble은 crude_weights로 저장합니다.
  • arrange() 함수를 사용해 crude_weights를 tf_idf 값을 기준으로 내림차순 정렬하세요.
  • crude_weights에서 0이 아닌 가장 낮은 tf_idf 값들을 보도록 필터링하세요. 이때도 arrange 함수를 사용합니다.