1. Lära sig
  2. /
  3. Courses
  4. /
  5. Python으로 배우는 Unsupervised Learning

Connected

exercise

Wikipedia 클러스터링 II

이제 이전 연습 문제에서 만든 파이프라인을 실제로 사용해 볼 시간입니다! 인기 있는 Wikipedia 문서들의 tf-idf 단어 빈도 배열 articles와 그 제목 리스트 titles가 제공됩니다. 파이프라인을 사용해 Wikipedia 문서들을 클러스터링해 보세요.

이전 연습 문제의 해답이 이미 로드되어 있어 TruncatedSVD와 KMeans를 연결한 Pipeline pipeline을 바로 사용할 수 있습니다.

Instruktioner

100 XP
  • pandas를 pd로 임포트하세요.
  • 단어 빈도 배열 articles에 파이프라인을 맞추세요.
  • 클러스터 레이블을 예측하세요.
  • 문서 제목 리스트 titles와 레이블 정렬을 위해 labels와 titles를 열로 갖는 DataFrame df를 만드세요. 이 부분은 이미 준비되어 있습니다.
  • df의 .sort_values() 메서드로 'label' 열을 기준으로 정렬하고 결과를 출력하세요.
  • Submit을 눌러 실행한 뒤, 멋지게 클러스터링된 Wikipedia 페이지를 잠시 살펴보세요!