영화 줄거리의 TF-IDF

무작위로 선택한 영화의 줄거리를 이용해 문서 클러스터링을 해봅시다. 문서에 클러스터링을 적용하기 전에, 특수 문자나 불용어 같은 불필요한 노이즈를 제거하고, 문서를 TF-IDF로 변환해 희소 행렬로 만들어야 합니다.

리스트 plots에 저장된 영화 줄거리에 대해 TF-IDF를 수행하려면 TfidfVectorizer 클래스를 사용하세요. TfidfVectorizer 클래스에서 tokenizer로 사용할 수 있는 remove_noise() 함수가 제공됩니다. .fit_transform() 메서드는 데이터를 TfidfVectorizer 객체에 맞춘 다음 TF-IDF 희소 행렬을 생성합니다.

참고: .fit_transform() 메서드는 실행에 몇 초가 걸릴 수 있습니다.