위키피디아 군집화 I

동영상에서 보셨듯이 TruncatedSVD는 csr_matrix 형식의 희소 배열(예: 단어 빈도 배열)에서도 PCA를 수행할 수 있어요. TruncatedSVD와 k-means를 결합해 위키피디아의 인기 페이지들을 군집화해 봅시다. 이번 연습에서는 파이프라인을 구성하세요. 다음 연습에서는 이 파이프라인을 일부 위키피디아 문서의 단어 빈도 배열에 적용해 보겠습니다.

TruncatedSVD 다음에 KMeans가 오도록 구성한 Pipeline 객체를 만드세요. (이번에는 단어 빈도 행렬을 미리 계산해 두었으므로 TfidfVectorizer는 필요하지 않습니다.)

사용할 위키피디아 데이터셋은 여기에서 가져왔습니다.