1. 学ぶ
  2. /
  3. コース
  4. /
  5. Python으로 배우는 군집 분석

Connected

演習

영화 줄거리의 TF-IDF

무작위로 선택한 영화의 줄거리를 이용해 문서 클러스터링을 해봅시다. 문서에 클러스터링을 적용하기 전에, 특수 문자나 불용어 같은 불필요한 노이즈를 제거하고, 문서를 TF-IDF로 변환해 희소 행렬로 만들어야 합니다.

리스트 plots에 저장된 영화 줄거리에 대해 TF-IDF를 수행하려면 TfidfVectorizer 클래스를 사용하세요. TfidfVectorizer 클래스에서 tokenizer로 사용할 수 있는 remove_noise() 함수가 제공됩니다. .fit_transform() 메서드는 데이터를 TfidfVectorizer 객체에 맞춘 다음 TF-IDF 희소 행렬을 생성합니다.

참고: .fit_transform() 메서드는 실행에 몇 초가 걸릴 수 있습니다.

指示

100 XP
  • sklearn에서 TfidfVectorizer 클래스를 임포트하세요.
  • 최소/최대 빈도를 각각 0.1과 0.75로, 최대 특성 수를 50으로 하여 TfidfVectorizer 클래스를 초기화하세요.
  • 초기화한 TfidfVectorizer 클래스에서 리스트 plots에 대해 fit_transform() 메서드를 사용하세요.