1. Învăţa
  2. /
  3. Courses
  4. /
  5. Python으로 배우는 Unsupervised Learning

Connected

exercise

위키피디아 군집화 I

동영상에서 보셨듯이 TruncatedSVD는 csr_matrix 형식의 희소 배열(예: 단어 빈도 배열)에서도 PCA를 수행할 수 있어요. TruncatedSVD와 k-means를 결합해 위키피디아의 인기 페이지들을 군집화해 봅시다. 이번 연습에서는 파이프라인을 구성하세요. 다음 연습에서는 이 파이프라인을 일부 위키피디아 문서의 단어 빈도 배열에 적용해 보겠습니다.

TruncatedSVD 다음에 KMeans가 오도록 구성한 Pipeline 객체를 만드세요. (이번에는 단어 빈도 행렬을 미리 계산해 두었으므로 TfidfVectorizer는 필요하지 않습니다.)

사용할 위키피디아 데이터셋은 여기에서 가져왔습니다.

Instrucţiuni

100 XP
  • 다음을 임포트하세요:
    • sklearn.decomposition에서 TruncatedSVD.
    • sklearn.cluster에서 KMeans.
    • sklearn.pipeline에서 make_pipeline.
  • n_components=50으로 TruncatedSVD 인스턴스 svd를 생성하세요.
  • n_clusters=6으로 KMeans 인스턴스 kmeans를 생성하세요.
  • svd와 kmeans로 구성된 파이프라인 pipeline을 생성하세요.