Кластеризація статей із Wikipedia, частина I

У відео ви бачили, що TruncatedSVD може виконувати PCA для розріджених масивів у форматі csr_matrix, наприклад для масивів частот слів. Поєднайте свої знання про TruncatedSVD і k-means, щоб кластеризувати популярні сторінки з Wikipedia. У цій вправі побудуйте конвеєр. У наступній вправі ви застосуєте його до масиву частот слів для деяких статей Wikipedia.

Створіть об'єкт Pipeline, що складається з TruncatedSVD, за яким іде KMeans. (Цього разу ми заздалегідь обчислили для вас матрицю частот слів, тож TfidfVectorizer не потрібен).

Набір даних Wikipedia, з яким ви працюватимете, отримано звідси: here.

Імпортуйте:
- TruncatedSVD з sklearn.decomposition.
- KMeans з sklearn.cluster.
- make_pipeline з sklearn.pipeline.
Створіть екземпляр TruncatedSVD на ім'я svd з n_components=50.
Створіть екземпляр KMeans на ім'я kmeans з n_clusters=6.
Створіть конвеєр під назвою pipeline, що складається з svd і kmeans.

вправа

Кластеризація статей із Wikipedia, частина I

Інструкції

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}вправа

Інструкції

вправа