1. Learn
  2. /
  3. Курси
  4. /
  5. Наглядове навчання в Python

Connected

вправа

Кластеризація статей із Wikipedia, частина I

У відео ви бачили, що TruncatedSVD може виконувати PCA для розріджених масивів у форматі csr_matrix, наприклад для масивів частот слів. Поєднайте свої знання про TruncatedSVD і k-means, щоб кластеризувати популярні сторінки з Wikipedia. У цій вправі побудуйте конвеєр. У наступній вправі ви застосуєте його до масиву частот слів для деяких статей Wikipedia.

Створіть об'єкт Pipeline, що складається з TruncatedSVD, за яким іде KMeans. (Цього разу ми заздалегідь обчислили для вас матрицю частот слів, тож TfidfVectorizer не потрібен).

Набір даних Wikipedia, з яким ви працюватимете, отримано звідси: here.

Інструкції

100 XP
  • Імпортуйте:
    • TruncatedSVD з sklearn.decomposition.
    • KMeans з sklearn.cluster.
    • make_pipeline з sklearn.pipeline.
  • Створіть екземпляр TruncatedSVD на ім'я svd з n_components=50.
  • Створіть екземпляр KMeans на ім'я kmeans з n_clusters=6.
  • Створіть конвеєр під назвою pipeline, що складається з svd і kmeans.