Evaluarea clusterizării cerealelor

În exercițiul anterior, ai observat din graficul inerției că 3 este un număr potrivit de clustere pentru datele despre cereale. De fapt, eșantioanele de cereale provin dintr-un amestec de 3 soiuri diferite: „Kama", „Rosa" și „Canadian". În acest exercițiu, vei grupa eșantioanele de cereale în trei clustere și vei compara clusterele cu soiurile de cereale folosind un tabel încrucișat.

Ai la dispoziție array-ul samples cu eșantioanele de cereale și o listă varieties care indică soiul fiecărui eșantion. Pandas (pd) și KMeans au fost deja importate.

Creează un model KMeans numit model cu 3 clustere.
Folosește metoda .fit_predict() a modelului model pentru a-l antrena pe samples și a obține etichetele clusterelor. Utilizarea .fit_predict() este echivalentă cu apelarea .fit() urmată de .predict().
Creează un DataFrame df cu două coloane numite 'labels' și 'varieties', folosind respectiv labels și varieties ca valori ale coloanelor. Acest pas a fost deja realizat pentru tine.
Folosește funcția pd.crosstab() pe df['labels'] și df['varieties'] pentru a număra de câte ori fiecare soi de cereale coincide cu fiecare etichetă de cluster. Atribuie rezultatul variabilei ct.
Apasă Trimite răspunsul pentru a vedea tabelul încrucișat!

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}exercițiu

Instrucțiuni

exercițiu