1. Learn
  2. /
  3. Курси
  4. /
  5. Наглядове навчання в Python

Connected

вправа

Оцінювання кластеризації зерна

У попередній вправі ви побачили з графіка інерції, що 3 — це добра кількість кластерів для даних про зерно. Насправді зразки походять із суміші трьох різних сортів: «Kama», «Rosa» та «Canadian». У цій вправі виконайте кластеризацію зразків на три кластери та порівняйте їх із сортами за допомогою перехресної таблиці.

У вас є масив samples із зразками та список varieties із назвою сорту для кожного зразка. Pandas (pd) і KMeans уже імпортовано.

Інструкції

100 XP
  • Створіть модель KMeans з назвою model із 3 кластерами.
  • Скористайтеся методом .fit_predict() об'єкта model, щоб навчити його на samples і отримати мітки кластерів. Використання .fit_predict() еквівалентне послідовності .fit() і .predict().
  • Створіть датафрейм df із двома стовпцями з назвами 'labels' і 'varieties', використавши відповідно labels і varieties як значення стовпців. Це вже зроблено за вас.
  • Використайте функцію pd.crosstab() для df['labels'] і df['varieties'], щоб підрахувати, скільки разів кожен сорт зерна збігається з кожною міткою кластера. Присвойте результат змінній ct.
  • Натисніть «Надіслати відповідь», щоб побачити перехресну таблицю!