1. Uczyć się
  2. /
  3. Courses
  4. /
  5. Python으로 추천 엔진 만들기

Connected

Exercise

TF-IDF 모델 인스턴스화하기

기본 설정의 TF-IDF는 모든 문서(이 예제에서는 영화 줄거리)에 등장하는 모든 단어에 대해 하나의 열을 생성해요. 이렇게 하면 모든 문서에 공통으로 나타나는 매우 흔한 단어와, 너무 드물게 나타나서 항목 간 유사도 파악에 도움이 되지 않는 단어가 함께 포함되어, 거대하고 직관적이지 않은 데이터셋이 만들어집니다.

이번 연습에서는 df_plots DataFrame을 사용해요. Title 열에는 영화 제목이, Plot 열에는 줄거리가 들어 있어요.

이 DataFrame을 사용해 기본 TF-IDF 점수를 생성하고, 가치가 낮은 열들이 포함되어 있는지 확인해 보세요.

그다음에는 min_df와 max_df 인자를 사용해 열 수를 제한하도록 TF-IDF 계산을 다시 수행하고, 개선 효과를 확인해 보겠습니다.

Instrukcje 1 / 2

undefined XP
    1
    2
  • TfidfVectorizer를 생성하고 이름을 vectorizer로 하세요.
  • vectorizer를 사용해 df_plots의 Plots 열 데이터를 변환하고, 결과를 vectorized_data에 할당하세요.
  • 변환으로 생성된 특성을 확인하세요.