Utvärdera klustringen av sädesslag

I föregående övning såg du i inertigrafen att 3 är ett lämpligt antal kluster för sädesslagens data. Sädeskornen kommer faktiskt från en blandning av tre olika sorter: "Kama", "Rosa" och "Canadian". I den här övningen ska du klustra sädeskornen i tre kluster och jämföra klustren med de faktiska sorterna med hjälp av en korstabellanalys.

Du har arrayen samples med sädesprover och en lista varieties som anger sorten för varje prov. Pandas (pd) och KMeans har redan importerats åt dig.

Skapa en KMeans-modell kallad model med 3 kluster.
Använd metoden .fit_predict() på model för att träna den på samples och hämta klusteretiketterna. Att använda .fit_predict() är samma sak som att använda .fit() följt av .predict().
Skapa en DataFrame df med två kolumner som heter 'labels' och 'varieties', med värdena från labels respektive varieties. Det här steget är redan gjort åt dig.
Använd funktionen pd.crosstab() på df['labels'] och df['varieties'] för att räkna hur många gånger varje sädesslag sammanfaller med varje klusteretikett. Tilldela resultatet till ct.
Klicka på Skicka in svar för att se korstabellen!

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}övning

Instruktioner

övning