Vyhodnocení clusterování zrní

V předchozím cvičení jsi z grafu inercie zjistil/a, že pro data o zrní je vhodný počet clusterů 3. Vzorky zrní totiž pocházejí ze tří různých odrůd: „Kama“, „Rosa“ a „Canadian“. V tomto cvičení rozdělíš vzorky zrní do tří clusterů a pomocí křížové tabulky porovnáš clustery s odrůdami.

Máš k dispozici pole samples se vzorky zrní a seznam varieties s odrůdou pro každý vzorek. Pandas (pd) a KMeans jsou již naimportovány.

Vytvoř model KMeans s názvem model se 3 clustery.
Pomocí metody .fit_predict() modelu model ho natrénuj na samples a získej štítky clusterů. Použití .fit_predict() je ekvivalentní volání .fit() následovaného .predict().
Vytvoř DataFrame df se dvěma sloupci pojmenovanými 'labels' a 'varieties', které naplníš hodnotami z labels a varieties. Tento krok je již hotový.
Pomocí funkce pd.crosstab() na df['labels'] a df['varieties'] spočítej, kolikrát se každá odrůda zrní shoduje s jednotlivými štítky clusterů. Výsledek ulož do ct.
Klikni na Odeslat a prohlédni si křížovou tabulku!

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení