1. Learn
  2. /
  3. Курси
  4. /
  5. Наглядове навчання в Python

Connected

вправа

Кластеризація Wikipedia, частина II

Час задіяти ваш конвеєр із попередньої вправи! Вам надано масив articles з tf-idf частотами слів для кількох популярних статей Wikipedia та список titles з їхніми назвами. Використайте свій конвеєр, щоб кластеризувати ці статті.

Розв'язок попередньої вправи вже завантажено, тож доступний Pipeline pipeline, що поєднує TruncatedSVD і KMeans.

Інструкції

100 XP
  • Імпортуйте pandas як pd.
  • Навчіть конвеєр на масиві частот слів articles.
  • Передбачте мітки кластерів.
  • Узгодьте мітки кластерів зі списком назв статей titles, створивши датафрейм df зі стовпцями labels і titles. Це вже зроблено для вас.
  • Використайте метод .sort_values() об'єкта df, щоб відсортувати датафрейм за стовпцем 'label', і виведіть результат.
  • Натисніть Submit Answer і приділіть хвилинку, щоб роздивитися вашу чудову кластеризацію сторінок Wikipedia!