1. Учиться
  2. /
  3. Courses
  4. /
  5. Python으로 배우는 Machine Learning 특성 공학

Connected

Exercise

Tf-idf

단어 등장 횟수(count)를 사용하는 것도 모델 구축에 유용하지만, 너무 자주 등장하는 단어는 원치 않게 결과를 왜곡할 수 있어요. 이러한 흔한 단어가 모델을 압도하지 않도록 정규화 기법을 사용할 수 있습니다. 이 레슨에서는 영상에서 다룬 것처럼 Tf-idf(Term frequency–inverse document frequency)를 사용할 거예요. Tf-idf는 흔한 단어의 값은 낮추고, 여러 문서에 많이 등장하지 않는 단어의 가중치는 높이는 효과가 있습니다.

Инструкции

100 XP
  • sklearn.feature_extraction.text에서 TfidfVectorizer를 임포트하세요.
  • 특성 수를 100개로 제한하고 영어 불용어를 제거하도록 TfidfVectorizer를 인스턴스화하세요.
  • text_clean 열에 대해 한 번에 벡터라이저를 학습하고 적용하세요.
  • 단어 가중치와 특성 이름을 열 이름으로 갖는 DataFrame tv_df를 생성하세요.