Оцінювання кластеризації зерна

У попередній вправі ви побачили з графіка інерції, що 3 — це добра кількість кластерів для даних про зерно. Насправді зразки походять із суміші трьох різних сортів: «Kama», «Rosa» та «Canadian». У цій вправі виконайте кластеризацію зразків на три кластери та порівняйте їх із сортами за допомогою перехресної таблиці.

У вас є масив samples із зразками та список varieties із назвою сорту для кожного зразка. Pandas (pd) і KMeans уже імпортовано.

Створіть модель KMeans з назвою model із 3 кластерами.
Скористайтеся методом .fit_predict() об'єкта model, щоб навчити його на samples і отримати мітки кластерів. Використання .fit_predict() еквівалентне послідовності .fit() і .predict().
Створіть датафрейм df із двома стовпцями з назвами 'labels' і 'varieties', використавши відповідно labels і varieties як значення стовпців. Це вже зроблено за вас.
Використайте функцію pd.crosstab() для df['labels'] і df['varieties'], щоб підрахувати, скільки разів кожен сорт зерна збігається з кожною міткою кластера. Присвойте результат змінній ct.
Натисніть «Надіслати відповідь», щоб побачити перехресну таблицю!

вправа

Оцінювання кластеризації зерна

Інструкції

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}вправа

Інструкції

вправа