영화 클러스터의 상위 용어

이제 희소 행렬을 만들었으니, 클러스터 중심을 구하고 각 클러스터에서 상위 세 개 용어를 출력해 봅시다. kmeans() 함수가 처리할 수 있도록 희소 행렬 tfidf_matrix를 .todense() 메서드로 일반 행렬로 변환하세요. 그런 다음 .get_feature_names() 메서드를 사용해 tfidf_vectorizer 객체에 포함된 용어 목록을 가져오세요. Python의 zip() 함수는 두 리스트를 묶어 줍니다.

이 연습 문제에서는 앞에서 만든 tfidf_vectorizer 객체와 희소 행렬 tfidf_matrix가 그대로 제공됩니다. SciPy에서 kmeans가 임포트되어 있습니다.

데이터 포인트가 많을수록 생성되는 클러스터가 더 명확해집니다. 다만 계산 비용이 커지므로, 여기 연습 문제에서는 크게 확장하기 어렵다는 점을 참고하세요.